作为运维人,工作中总会遇到各种各样的故障需要处理。而每一次运维排障都像柯南破案,需要透过表象层层抽丝剥茧,才能一步步接近问题根源。
我们从保险案例排障中挑选了几个难度较高的,你的工作中遇到过类似情况吗?你能一眼看穿真相,看出故障原因出在哪里吗?
01
某保险一次大型营销活动中,出现中间件宕机。管理人员尝试重启进行恢复,但中间件重启后再次宕机。运维人员排查发现,中间件本身一切正常。经过几个轮回的排查,发现最终原因竟然是:
点击下方空白处获得答案
↓
02
保险公司某系统平时一切运行正常,但与某大型支付平台合作进行营销活动时,却发现从合作平台端发出的部分用户请求无响应,数据中心反馈没有收到相关请求。你觉得是哪个环节出了问题呢?
点击下方空白处获得答案
↓
03
某公司的支付系统过去一直都很正常,某日大约有半天时间,交易成功率明显降低,经对问题交易类型进行分类,逐步排查后,发现是因为某地区过来的所有支付请求都失败了。这是什么原因导致的呢?
点击下方空白处获得答案
↓
04
某日上午,某保险公司核心服务器出现宕机,经排查发现是网厅触发核心系统高并发访问所致。应用部通过日志和某APM工具看到,从应用服务器发出一笔请求,经F5,到核心服务器端接受的请求变成了2-5笔。这些多出来的请求是从哪里发出的?
点击下方空白处获得答案
↓
看到这里你心里是否有许多问号:
为什么故障原因在这里?
运维人员是如何逐步排查,找到问题的?
我们已经把详细的排查分析过程整理成了PPT资料
这就点击下载,去解开疑惑吧。

