请重视,这是我们的世界最大的事情!!
如何准确发现服务器宕机?
提到服务器宕机检测,大家会想到,宕机能够很快知道,这个有什么可做的?
实际上,很多时候服务器宕机,并不总是被及时感知。服务器宕机,ping或者ssh这是最简单的做法,但真正的工程实践,没这么简单。想要获知服务器宕机怎么办?可以通过服务器宕机实时检测:
>>发现宕机。
>>提前告警。
>>告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。
>>自动报修生成工单。
那么,如何可以准确发现宕机,减少误报呢?我们可以有以下操作,比如:
心跳源检测异常
通过心跳源,初步发现异常。通常心跳变化会有三类消息, update消息,delete消息和insert消息。心跳逻辑在于,正常情况下SA服务端与NC建立长连接,每数秒缓存一次心跳,每几分钟打包上报一次,但当NC异常时,长连接感知后,立即上报异常,并修改路由表。所以心跳异常做到秒级感知。
update消息,在有心跳发生变化情况下都会有,心跳异常和心跳恢复正常时都会发起,是主要的心跳来源。
delete消息,在心跳异常,并且SA判断ping不通,且ssh不通情况下发起,删除该条消息,避免延迟太长。
insert消息,在新增加机器, 或者重装后重新上位的机器发起,该消息对宕机发现价值不大,配合uptime使用。
心跳源检测任务逻辑,主要是监听并缓存uptime消息,同时避免时间窗内多次消息冲突,导致信息被覆盖。
异常排除
· 排除非物理机器,将系统中暂时不关注的VM等产生的异常信息排除掉。
· 排除非业务状态的机器,如装机状态中的,包括生产中,维修中,迁移中,重装中,销毁中,重启中,无管控状态,只监控正常状态的机器。
· 排除非正在工作的机器,如非working状态机器。
网络干扰排除
宕机分析中,较多误报是由于网络问题干扰,无法准确判断出物理机是否宕机,有可能是网络问题。
· 排除上联网络设备异常导致的误报,包括机房断网演练,小面积网络故障,上联网络故障,如通过探测丢包情况,使用一些逻辑初步判断网络问题。
· 服务器本身未丢包的误报,除了需要过滤出网络问题,还要通过丢包数据分析,过滤掉SA误报问题, SA异常会上报心跳异常,被误理解为宕机。
· icmp及tcp丢包分析,icmp采集频率为固定数秒,tcp采集频率固定数秒,包括多个不同大小包(16,32,64,128,256等)的丢包情况,根据分析时间窗内两项数据的丢包情况。
特殊情况干扰排除
个别机房有时候会出现大面积风暴式的无故心跳异常,同时网络ping包异常,但上联网络设备ping包正常,这种误报,一般根据具体case具体进行针对性的分析。如根据监控每个机房的上报频率,排除干扰。
进一步识别误报
至此,大部分干扰已经过滤掉,但仍有一部分误报隐藏其中。比如心跳异常,ping异常,都合乎宕机判断的逻辑,会导致误判成宕机,如导致网卡被打爆,或者重试率高,这种是业务原因导致网络异常,但业务认为不是异常,需要排除掉。再例如服务器并没有挂掉,但是IO延时和资源占用率各项指标都不正常等场景。针对以上等情况,增加uptime判断以及带外日志分析排查。
· 宕机时间点探测uptime确定是否发生重启。
· 进一步通过分析日志是否连续,判断是否发生重启。
· 日志重启特征值匹配,确认是否发生重启。
· 如果还不能确定,使用uptime的时间窗技术进行重启。
· 仍不能确定的待处理,进入长尾处理名单。
长尾再次处理
未确认的待处理的,会加入到长尾列表中,像这种分钟级的心跳异常,ping异常,但串口日志一直正常输出的情况,一般就是某种死机,死到连网络都不通的场景。会观察一段时间,一个固定时间窗内仍未恢复或重启的话,就暂时报宕机。后期会把这种死机单独找划分归类。
我们从准确率和覆盖率来看:
· 准确率:目前发现的宕机中有很高准确度,可以区分出真正宕机或者未宕机。而判断为宕机的数据中,也存在少量的,由于缺少相关信息导致误报,该部分将进一步优化,逐渐降低误报,在新的措施之后,该比例会接近0。
· 覆盖率:当前统计的覆盖率已经能很好的支撑日常宕机处理,该数据在有足够的特征后,会进一步提升。
目前,宕机感知是宕机分析的基础,通过服务器宕机实时检测,会把相应的宕机原因分布整理出来,明确具体的原因,达成服务器极致可靠性。
往期公众号回顾
业务案例
金融行业类
电信行业类
工业行业类
交通行业类
广播电视类
医疗行业类
制造业类
党政类
只有新闻才关注时效性吗?错! ——唐合易成助力华北地区某政府财政系统IT运维
关键业务介绍
唐合易成绿色翻新设备销售业务--践行环保,从绿色环保,循环再利用做起!
资质荣誉
产品推广
企业人文
IBM P750——库存备件FC/ PN号等信息分享
CPU对应FC/PN号:
8332/74Y1840/74Y2453 8-core 3.3GHz POWER7 Processor Card
8334/74Y1855/74Y2457 8-core 3.0 GHz POWER7 Processor Card
8335/74Y1845 6-core 3.3GHz POWER7 Processor Card
8336/74Y1833/74Y2451 8-core 3.55GHz POWER7 Processor Card
内存对应FC/PN号:
4526/77P8784
8GB (2x4GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4527/77P8632
16GB (2x8GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4528/77P8633
32GB (2x16GB) Memory DIMMs, 1066MHz, 2GB DDR3 DRAM
4544/77P8633
Memory Offering, 512GB (Multiples of 16 of 2x16GB DIMMs)
硬盘对应FC/PN号:
1882/42R5661/42R8390/42R8392/46V6830/46V6837
146.8GB 10K RPM SAS SFF Disk Drive
1883/44V4426/44V4427/44V4428/44V6842
73.4 GB 15K RPM SAS SFF Disk Drive
1885/42R6833/44V6831/44V6833/44V6838
300GB 10K RPM SFF SAS Disk Drive
1886/44V6843/44V6845/44V6850
146GB 15K RPM SFF SAS Disk Drive
1890/1909/58B0/44V6817/44V6821/44V8674
69GB SFF SAS Solid State Drive
RAID卡对应FC/PN号:
5805/PCIe 380MB Cache Dual - x4 3Gb SAS RAID Adapter
5903/574E/44V4198/44V7436/44V7597/74Y6124
PCIe 380MB Cache Dual - x4 3Gb SAS RAID Adapter
网卡对应FC/PN号:
5706/00G2380/00P4289/00P6131/03N5297/03N6070/53P5450/80P4024/80P7033
IBM 2-Port 10/100/1000 Base-TX Ethernet PCI-X Adapter
适配卡对应FC/PN号:
2728/57D1/46K6692/46K7494
4 port USB PCIe Adapter
4764/12R6540/12R6714/41U0441/41U0442/41V0161
PCI-X Cryptographic Coprocessor (FIPS 4)
显卡对应FC/PN号:
5748/10N7756
POWER GXT145 PCI Express Graphics Accelerator
光纤卡对应FC/PN号:
5708/2B3B/05N6768/11P3847/12R9314/46K8088
10Gb FCoE PCIe Dual Port Adapter
5713/03N6056/26K6490/30R5219/32R1926/46K7342/49Y4236
1 Gigabit iSCSI TOE PCI-X on Copper Media Adapter
电源对应FC/PN号:
7740/46K5673
Power Supply, 1725 Watt AC, Hot-swap, Base or Redunda
光驱对应FC/PN号:
5762/44V4219/44V4220
SATA Slimline DVD-RAM Drive
唐合易成
我们支持7*24小时:
》服务器、小型机、存储、网络及安全等设备的整机和备件销售/绿色翻新再制造设备销售与升级服务/整机及备件租赁/数据库、中间件、备份和虚拟化等软件的支持与服务
》IT 运维及维保/机房搬迁/容灾备份/数据迁移
》IT 设备实机操作等技能培训/自有运维监控软件/自有信息安全软件/系统集成/机房建设等增值业务
24小时服务热线:400-6296-001
业务支持邮箱:support@tanghop.com

