大数跨境

佛系运维是怎样炼成的?

佛系运维是怎样炼成的? 天旦Netis
2018-05-31
4
导读:佛系运维是怎样一种境界?

佛系,近来火热的一个词汇,用来表达一种心如止水、不动怒、不控诉的态度。联系到熬夜、救火、争分夺秒的运维工作,也许有些不可思议。佛系运维,是不是一种对于业务故障不纠结、无所谓的态度吗?


NO。


对于兢兢业业、一丝不苟的运维人来说,佛系运维是一种运维水平及科技实力的升华:对于业务运行中出现的问题处事不惊,泰然自若、无所畏惧的从容心态。本期《运维告警故事》,让我们来看看这些佛系运维人,他们是如何在BPC的帮助之下完成历练之路的。



从容,源于对故障信息及时全面的掌握

「 某省农村信用联合社 」

2017年11月30日17:56,某超级网银系统的业务响应率、响应时间等多个指标出现异常波动。BPC即刻感知异常、发出告警,通过短信通知到对应的负责人。

  故障分析

在接到短信通知的第一时间,应用负责人立即登录BPC平台。BPC多维统计视图显示,自17:56开始,业务响应率急剧下跌,最低时达到0%;在业务异常期间,偶发少量正常交易,但伴随着响应时间的大幅增长。

通过Drill Down对指标逐层下钻分析最终发现:我行去往农信银的所有类型交易都出现了响应率骤降的情况,这种情况发生在本行所有与农信银通信的服务器上,基本可以判断问题在于对端。很快,我行对故障的判断得到了农信银的验证。


  故障处理

大约在BPC告警后15分钟,农信银工程师主动电话联系本行,了解异常情况的细节。此时,本行已经充分掌握故障信息,与对端一起诊断问题,并以最快的速度恢复业务运行。


之后,该应用负责人通过BPC进一步支持农信银工程师进行业务的调试和模拟压测,确保线路和业务的稳定;期间受到行内领导的高度认可。


  用户说

“BPC项目是我行非常重要的运维项目,目前已经成功上线行内主要业务系统,并通过API将BPC对接短信平台,实时将告警信息通过短信通知相应负责人;这次超级网银的故障处理,BPC的告警让我们及时了解故障情况,并迅速做出妥善处置,在对端农信银来电话时,我们已经做好充足的准备,在鉴责方面起到非常大的作用。”

——某省农村信用联合社 · 运维应用部负责人



自信,源自对故障细节的追根究底

「 某农商银行 」

2018年4月27日13:22,BPC发出1次告警:XXTrust系统指标出现异常,最低时达到0%的数值;且在业务指标异常期间,交易量不断上升。

  故障分析

13:23,在XXTrust系统性能出现波动的第一时间,BPC已经在前台发出告警。

BPC负责人立即进行指标分析和问题诊断。在应用层的多维统计视图上可以看到,13:22开始,XXTrust响应率一直为0,但交易量不断上升。确认在网络畅通的情况下,基本可判定系统出现异常。


  故障分析

负责人在BPC平台通过多维分析的统计方式进行数据钻取和分析,发现在故障发生的3分钟内,突然出现有700多笔AT类型的交易,且服务器整体无响应。


基于BPC的分析,随后负责人与应用负责人一起沟通故障原因和解决方案,立即决定对应用进行重启。重启后,业务系统恢复正常。同时,负责人继续在BPC平台钻取交易明细进行细节分析和定位,不放过任何蛛丝马迹。


请输入标题     bcdef

就像内外兼修、刚柔并济的太极,看则柔和、轻缓,实则以柔克刚,佛系运维,因为运维人员炉火纯青的内功积累而越发充满力量。“让运维稳定无忧,运营做你所想”是天旦坚持的使命,而且充分赋予到产品之中,为用户的工作赋能增效。BPC用感知异常定位故障位置和原因全面挖掘故障的蛛丝马迹」,让运维化被动为主动。佛系运维,自信运维。

请输入标题     abcdefg


点击图片,回看历史「运维告警日记」



获取更多BPC精华内容

前往【内容中心】,

获取BPC产品资料、用户案例、调研白皮书、公开演讲PPT等更多运维运营精华。

我是Danny,天旦的一名成员,

也是天旦的产品代言人,

让运维稳定无忧,

运营做你所想是我们的使命。


长按二维码

关注我们




【声明】内容源于网络
0
0
天旦Netis
上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
内容 236
粉丝 0
天旦Netis 上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
总阅读584
粉丝0
内容236