佛系,近来火热的一个词汇,用来表达一种心如止水、不动怒、不控诉的态度。联系到熬夜、救火、争分夺秒的运维工作,也许有些不可思议。佛系运维,是不是一种对于业务故障不纠结、无所谓的态度吗?
NO。
对于兢兢业业、一丝不苟的运维人来说,佛系运维是一种运维水平及科技实力的升华:对于业务运行中出现的问题处事不惊,泰然自若、无所畏惧的从容心态。本期《运维告警故事》,让我们来看看这些佛系运维人,他们是如何在BPC的帮助之下完成历练之路的。
从容,源于对故障信息及时全面的掌握
「 某省农村信用联合社 」
2017年11月30日17:56,某超级网银系统的业务响应率、响应时间等多个指标出现异常波动。BPC即刻感知异常、发出告警,通过短信通知到对应的负责人。
故障分析
在接到短信通知的第一时间,应用负责人立即登录BPC平台。BPC多维统计视图显示,自17:56开始,业务响应率急剧下跌,最低时达到0%;在业务异常期间,偶发少量正常交易,但伴随着响应时间的大幅增长。
通过Drill Down对指标逐层下钻分析最终发现:我行去往农信银的所有类型交易都出现了响应率骤降的情况,这种情况发生在本行所有与农信银通信的服务器上,基本可以判断问题在于对端。很快,我行对故障的判断得到了农信银的验证。
故障处理
大约在BPC告警后15分钟,农信银工程师主动电话联系本行,了解异常情况的细节。此时,本行已经充分掌握故障信息,与对端一起诊断问题,并以最快的速度恢复业务运行。
之后,该应用负责人通过BPC进一步支持农信银工程师进行业务的调试和模拟压测,确保线路和业务的稳定;期间受到行内领导的高度认可。
用户说
“BPC项目是我行非常重要的运维项目,目前已经成功上线行内主要业务系统,并通过API将BPC对接短信平台,实时将告警信息通过短信通知相应负责人;这次超级网银的故障处理,BPC的告警让我们及时了解故障情况,并迅速做出妥善处置,在对端农信银来电话时,我们已经做好充足的准备,在鉴责方面起到非常大的作用。”
——某省农村信用联合社 · 运维应用部负责人
自信,源自对故障细节的追根究底
「 某农商银行 」
2018年4月27日13:22,BPC发出1次告警:XXTrust系统指标出现异常,最低时达到0%的数值;且在业务指标异常期间,交易量不断上升。
故障分析
13:23,在XXTrust系统性能出现波动的第一时间,BPC已经在前台发出告警。
BPC负责人立即进行指标分析和问题诊断。在应用层的多维统计视图上可以看到,13:22开始,XXTrust响应率一直为0,但交易量不断上升。确认在网络畅通的情况下,基本可判定系统出现异常。
故障分析
负责人在BPC平台通过多维分析的统计方式进行数据钻取和分析,发现在故障发生的3分钟内,突然出现有700多笔AT类型的交易,且服务器整体无响应。
基于BPC的分析,随后负责人与应用负责人一起沟通故障原因和解决方案,立即决定对应用进行重启。重启后,业务系统恢复正常。同时,负责人继续在BPC平台钻取交易明细进行细节分析和定位,不放过任何蛛丝马迹。
请输入标题 bcdef
就像内外兼修、刚柔并济的太极,看则柔和、轻缓,实则以柔克刚,佛系运维,因为运维人员炉火纯青的内功积累而越发充满力量。“让运维稳定无忧,运营做你所想”是天旦坚持的使命,而且充分赋予到产品之中,为用户的工作赋能增效。BPC用「 快速感知异常、准确定位故障位置和原因、全面挖掘故障的蛛丝马迹」,让运维化被动为主动。佛系运维,自信运维。
请输入标题 abcdefg
点击图片,回看历史「运维告警日记」
获取更多BPC精华内容
前往【内容中心】,
获取BPC产品资料、用户案例、调研白皮书、公开演讲PPT等更多运维运营精华。
我是Danny,天旦的一名成员,
也是天旦的产品代言人,
让运维稳定无忧,
运营做你所想是我们的使命。
长按二维码
关注我们


