大数跨境
0
0

请重视,这是我们的世界最大的事情!!

请重视,这是我们的世界最大的事情!! 唐合易成
2019-01-16
2
导读:请重视,这是我们的世界最大的事情!!如何准确发现服务器宕机? 提到服务器宕机检测,大家会想到,

 


请重视,这是我们的世界最大的事情!!


如何准确发现服务器宕机?



       提到服务器宕机检测,大家会想到,宕机能够很快知道,这个有什么可做的?


       实际上,很多时候服务器宕机,并不总是被及时感知。服务器宕机,ping或者ssh这是最简单的做法,但真正的工程实践,没这么简单。想要获知服务器宕机怎么办?可以通过服务器宕机实时检测:


>>发现宕机。

>>提前告警。

>>告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。

>>自动报修生成工单。


       那么,如何可以准确发现宕机,减少误报呢?我们可以有以下操作,比如

心跳源检测异常

通过心跳源,初步发现异常。通常心跳变化会有三类消息,      update消息,delete消息和insert消息。心跳逻辑在于,正常情况下SA服务端与NC建立长连接,每数秒缓存一次心跳,每几分钟打包上报一次,但当NC异常时,长连接感知后,立即上报异常,并修改路由表。所以心跳异常做到秒级感知。


      update消息,在有心跳发生变化情况下都会有,心跳异常和心跳恢复正常时都会发起,是主要的心跳来源。

       delete消息,在心跳异常,并且SA判断ping不通,且ssh不通情况下发起,删除该条消息,避免延迟太长。

insert消息,在新增加机器, 或者重装后重新上位的机器发起,该消息对宕机发现价值不大,配合uptime使用。

       心跳源检测任务逻辑,主要是监听并缓存uptime消息,同时避免时间窗内多次消息冲突,导致信息被覆盖。


异常排除

·       排除非物理机器,将系统中暂时不关注的VM等产生的异常信息排除掉。

·       排除非业务状态的机器,如装机状态中的,包括生产中,维修中,迁移中,重装中,销毁中,重启中,无管控状态,只监控正常状态的机器。

·       排除非正在工作的机器,如非working状态机器。


网络干扰排除

        宕机分析中,较多误报是由于网络问题干扰,无法准确判断出物理机是否宕机,有可能是网络问题。

·       排除上联网络设备异常导致的误报,包括机房断网演练,小面积网络故障,上联网络故障,如通过探测丢包情况,使用一些逻辑初步判断网络问题。

·       服务器本身未丢包的误报,除了需要过滤出网络问题,还要通过丢包数据分析,过滤掉SA误报问题, SA异常会上报心跳异常,被误理解为宕机。

·        icmp及tcp丢包分析,icmp采集频率为固定数秒,tcp采集频率固定数秒,包括多个不同大小包(16,32,64,128,256等)的丢包情况,根据分析时间窗内两项数据的丢包情况。


特殊情况干扰排除

       个别机房有时候会出现大面积风暴式的无故心跳异常,同时网络ping包异常,但上联网络设备ping包正常,这种误报,一般根据具体case具体进行针对性的分析。如根据监控每个机房的上报频率,排除干扰。


进一步识别误报

        至此,大部分干扰已经过滤掉,但仍有一部分误报隐藏其中。比如心跳异常,ping异常,都合乎宕机判断的逻辑,会导致误判成宕机,如导致网卡被打爆,或者重试率高,这种是业务原因导致网络异常,但业务认为不是异常,需要排除掉。再例如服务器并没有挂掉,但是IO延时和资源占用率各项指标都不正常等场景。针对以上等情况,增加uptime判断以及带外日志分析排查。

·       宕机时间点探测uptime确定是否发生重启。

·       进一步通过分析日志是否连续,判断是否发生重启。

·       日志重启特征值匹配,确认是否发生重启。

·       如果还不能确定,使用uptime的时间窗技术进行重启。

·       仍不能确定的待处理,进入长尾处理名单


长尾再次处理

       未确认的待处理的,会加入到长尾列表中,像这种分钟级的心跳异常,ping异常,但串口日志一直正常输出的情况,一般就是某种死机,死到连网络都不通的场景。会观察一段时间,一个固定时间窗内仍未恢复或重启的话,就暂时报宕机。后期会把这种死机单独找划分归类。

我们从准确率和覆盖率来看:

·       准确率:目前发现的宕机中有很高准确度,可以区分出真正宕机或者未宕机。而判断为宕机的数据中,也存在少量的,由于缺少相关信息导致误报,该部分将进一步优化,逐渐降低误报,在新的措施之后,该比例会接近0。

·       覆盖率:当前统计的覆盖率已经能很好的支撑日常宕机处理,该数据在有足够的特征后,会进一步提升。



       

       目前,宕机感知是宕机分析的基础,通过服务器宕机实时检测,会把相应的宕机原因分布整理出来,明确具体的原因,达成服务器极致可靠性。

往期公众号回顾

业务案例

金融行业类

唐合易成助力北方地区某金融企业维保建设

唐合易成助力华北地区某金融企业网络设备运维建设

唐合易成助力华东地区某金融保险行业维保建设

可靠运维,金融行业经营与发展的生命线

唐合易成圆满完成华北地区某银行灾备系统搬迁

唐合易成中标西北某银行IBM P7小型机供应项目

唐合易成助力西北地区某银行系统IT设备维保

电信行业类

唐合易成助力华东地区某企业IT运维项目

唐合易成助力北方某企业IT运维建设

唐合易成助力北方某企业IT资源池建设

工业行业类

唐合易成助力某企业网络系统集成工作

唐合易成助力南区某企业IT运维建设

交通行业类

唐合助力华中地区某市轨道交通系统IT维保服务

这些年,在机场行走的艾娃、Amy们

广播电视类

唐合易成签约某市级电视台设备系统维护服务项目

唐合易成助力华东地区某市级广播电视台IT维保服务

唐合易成--助力深圳广电IT系统维保项目

医疗行业类

唐合易成助力某市级人民医院IT系统运维

信息医疗,助力惠民便民服务

制造业类

IT运维,高效提升制造业企业信息化应用效率

唐合易成助力某机械制造业企业IT运维建设

唐合易成助力南方某企业IT运维建设

党政类

只有新闻才关注时效性吗?错!      ——唐合易成助力华北地区某政府财政系统IT运维

唐合易成助力某企业思科网络设备运维服务

关键业务介绍

2018年,协助您打造核心竞争力

唐合易成容灾备份解决方案

唐合易成绿色翻新设备销售业务--践行环保,从绿色环保,循环再利用做起!

唐合易成企业级IT设备搬迁服务

唐合易成---Hope学院

单次运维,我们希望做得更好

IT运维,高效提升制造业企业信息化应用效率

企业网络安全运维,如何达到螺旋上升效果

资质荣誉

珍惜荣誉,砥砺前行

热烈祝贺我司荣获信息系统集成及服务三级资质

热烈祝贺唐合易成荣获国家高新技术企业认证

热烈祝贺唐合易成获得中关村高新技术企业认证

唐合易成获得 ISO9001 质量管理体系再认证

唐合易成荣获ISO27001信息安全管理体系认证

唐合易成荣获ISO20000信息技术服务管理体系认证

热烈祝贺唐合易成加入中国循环经济协会

产品推广

一大波小型机和X86服务器到库啦!

产品推广——节能高可用服务器

产品推广——浪潮和曙光服务器

企业人文

目标协作,团队无间 ——唐合易成丰宁草原拓展活动

包装,我们从来不将就

我家的库房是“时尚治愈”系

Tanghop 学院 * 第一季内训完美收官

唐合易成举行工程师定岗定级考评


 IBM P750——库存备件FC/ PN号等信息分享

CPU对应FC/PN号:

8332/74Y1840/74Y2453  8-core 3.3GHz POWER7 Processor Card
8334/74Y1855/74Y2457  8-core 3.0 GHz POWER7 Processor Card
8335/74Y1845   6-core 3.3GHz POWER7 Processor Card
8336/74Y1833/74Y2451  8-core 3.55GHz POWER7 Processor Card

内存对应FC/PN号:
4526/77P8784
8GB (2x4GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4527/77P8632
16GB (2x8GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4528/77P8633
32GB (2x16GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4544/77P8633
Memory Offering, 512GB (Multiples of 16 of 2x16GB DIMMs)
硬盘对应FC/PN号:
1882/42R5661/42R8390/42R8392/46V6830/46V6837
146.8GB 10K RPM SAS SFF Disk Drive
1883/44V4426/44V4427/44V4428/44V6842
73.4 GB 15K RPM SAS SFF Disk Drive
1885/42R6833/44V6831/44V6833/44V6838
300GB 10K RPM SFF SAS Disk Drive
1886/44V6843/44V6845/44V6850
146GB 15K RPM SFF SAS Disk Drive
1890/1909/58B0/44V6817/44V6821/44V8674
69GB SFF SAS Solid State Drive
RAID卡对应FC/PN号:
5805/PCIe 380MB Cache Dual - x4 3Gb SAS RAID Adapter
5903/574E/44V4198/44V7436/44V7597/74Y6124
PCIe 380MB Cache Dual - x4 3Gb SAS RAID Adapter
网卡对应FC/PN号:
5706/00G2380/00P4289/00P6131/03N5297/03N6070/53P5450/80P4024/80P7033
IBM 2-Port 10/100/1000 Base-TX Ethernet PCI-X Adapter
适配卡对应FC/PN号:
2728/57D1/46K6692/46K7494
4 port USB PCIe Adapter
4764/12R6540/12R6714/41U0441/41U0442/41V0161
PCI-X Cryptographic Coprocessor (FIPS 4)
显卡对应FC/PN号:
5748/10N7756
POWER GXT145 PCI Express Graphics Accelerator
光纤卡对应FC/PN号:
5708/2B3B/05N6768/11P3847/12R9314/46K8088
10Gb FCoE PCIe Dual Port Adapter
5713/03N6056/26K6490/30R5219/32R1926/46K7342/49Y4236
1 Gigabit iSCSI TOE PCI-X on Copper Media Adapter
电源对应FC/PN号:
7740/46K5673
Power Supply, 1725 Watt AC, Hot-swap, Base or Redunda
光驱对应FC/PN号:
5762/44V4219/44V4220
SATA Slimline DVD-RAM Drive


唐合易成

我们支持7*24小时:

》服务器、小型机、存储、网络及安全等设备的整机和备件销售/绿色翻新再制造设备销售与升级服务/整机及备件租赁/数据库、中间件、备份和虚拟化等软件的支持与服务


》IT 运维及维保/机房搬迁/容灾备份/数据迁移


》IT 设备实机操作等技能培训/自有运维监控软件/自有信息安全软件/系统集成/机房建设等增值业务


24小时服务热线:400-6296-001
业务支持邮箱:support@tanghop.com


【声明】内容源于网络
0
0
唐合易成
提供IT运维及维保、机房搬迁、容灾备份、数据迁移服务;服务器、小型机、存储、网络及安全等设备的整机和备件销售;整机及备件租赁;数据库、中间件、备份、虚拟化等各类软件的支持与服务。
内容 1101
粉丝 0
唐合易成 提供IT运维及维保、机房搬迁、容灾备份、数据迁移服务;服务器、小型机、存储、网络及安全等设备的整机和备件销售;整机及备件租赁;数据库、中间件、备份、虚拟化等各类软件的支持与服务。
总阅读3
粉丝0
内容1.1k