做运维的你一定有这样的经历:
接到投诉,前端业务出现问题,十万火急。经过争分夺秒、一丝不苟地排查后却发现,业务运行一切正常,问题并不在我这儿。于是,接下来能做的,只有
等待...
如今因为业务的复杂性,一笔交易的顺利达成有赖于多方机构的互联互通,每一个环节的高效运行。举一个让大家都深有体会的例子,在让人不眠不休的双十一之夜,当你拼着网速和手速秒杀心仪的商品时,若看到这个提示会有多么捉急?焦虑?烦躁?
下单失败
支付失败
在秒杀一笔订单的过程中,购物平台、第三方支付平台、银行等关键节点环环相扣。若任何一方出现闪失导致交易卡顿,都会阻碍秒杀的顺利完成。遭受损失的,不仅是痛失所爱的买家,还有这条交易链路中的所有机构。因此,无论组织内外,我们需要统一战线,紧紧围绕业务,联手建立起高效的业务运维联盟,共同守护业务稳定运行的阵地。
运维的战场不孤独。本期《运维告警日记》,我们将与你分享BPC用户中,通过精准告警,鉴别机构外部问题,帮助“盟友”快速排障,合力恢复业务稳定运行的故事。
某全国股份制商业银行
2017年6月21日10:17,某行支付系统出现故障,导致本行去往该行的交易异常。在故障持续的时间内,交易失败比例高达70%。通过BPC,该行在问题发生的第一时间快速判断出责任方,帮助对手行一起尽快恢复业务运行。
STEP1 故障定位
在故障发生的第一时间,BPC超级网银监控视图触发1次告警。
进入超级网银的双向交易行列表,故障自动定位:XX银行。同时,数据显示:在产生故障的1分钟内,本行与XX行之间有136笔交易快速产生,为了最大程度降低损失,需要尽快判断故障原因,立即排除。
STEP2 故障的影响
通过多维统计视图可发现,告警发生时引起交易超时,大量交易无响应。
STEP3 锁定故障根本原因
各对手行多维度交易对比分析发现:
· 当故障发生时,只有本行与XX银行间的业务响应率极低,而其他对手行表现正常。
· 本行与XX行的3种交易类型全都受到不同程度的影响。
· 本行与XX行业务对应的服务器普遍受到影响。
当发现与对手行所有类型的交易均出现响应时间增加和响应率降低的情况,且这种情况发生在本行所有与对手行通信的服务器上时,基本可以判断故障大概率发生在对手行的服务器上。立即联系对手行反馈情况并提供监控数据后,对手行运维人员即刻发现并定位到了出现问题的服务器,立即排除故障,恢复业务运行,同时也充分验证了本行故障诊断结论的正确性。
“
精准的告警就像是一道烽火,为运维盟友传递着业务故障的可靠情报。运维的战场不孤独。
”
某城市商业银行
2018年5月2日12:09,该行柜面进行身份验证时出现较多超时无返回现象,部分网点多次操作,无法验证通过,BPC即刻产生告警,运维人员快速响应。12:11,在故障发生的短短2分钟内,运维人员通过BPC快速确认故障发生的位置在于外部机构,立即上报。12:15,得到外部机构通知,故障已成功排除,业务恢复正常运行。
STEP1 故障定位
BPC服务路径图即刻发出告警:身份验证系统运行异常,产生2次告警。
进一步查看2次告警的详细记录,发现引起告警的原因:身份验证系统响应率低于设定的阈值。
STEP2 故障的影响
故障持续期间,业务的响应率骤跌。
在此期间,有29笔交易发生。
STEP3 锁定故障根本原因
通过查看故障期间这些交易的详细交易记录可以发现,造成身份验证的失败的原因并不在本行。于是,立即上报相关单位。
从BPC产生告警、确定故障原因、上报相关单位,到对方单位成功排障恢复业务运行,全流程在6分钟之内全部完成。BPC帮助用户充分把控了业务排障过程中的高效节奏,快速、准确地找到导致业务故障的原因,与对方单位高效的合作让业务快速恢复。
“
有时候,分秒间的准确判断正是科技实力充分的展现。
”
BPC产品经理有话说
在上一次的公众号文章中,我们通过投票,为BPC的功能优化进行了一次公开调研。收获到那么多热情反馈,尤其是对“BPC不再提供告警”的失望、疑问和关切,让我们颇受感动。请放心,告警不说再见。
你们的声音,让我们切实感受到了大家对告警功能的充分认可,它就像是运维人员的一双眼睛,敏锐洞悉业务运行的问题所在,成为了运维人员必不可少的关键作用。而你们对于BPC告警功能继续升级优化的期望,正如我们在设计产品时秉持的理念:BPC应当贴近用户的真实工作场景,解用户所难,为运维人员在繁忙的工作中赋能增效。一如往常地,我们将尊重用户所想,保持BPC告警越来越棒的状态,守护业务的稳定运行。一晃多年,为了纪念BPC与越来越多的用户陪伴左右,我们连载开启“运维告警日记”,致一起战斗的光辉岁月!
获取更多BPC精华内容
天旦公众号内容中心上线!
丰富的产品资料、用户案例、调研白皮书、公开演讲PPT等,精华荟萃,与你分享,长按二维码立即获得。
前往内容中心
获取BPC更多精华
长按扫码,立即前往

