大数跨境

运维2020需要更智能!BPC云图智能告警带来更聪明的监控告警

运维2020需要更智能!BPC云图智能告警带来更聪明的监控告警 天旦Netis
2019-12-04
0
导读:史上!首次!公开!不看后悔!
从2017年开始的好几个「人工智能元年」都已经过去了,围绕「AI」这一关键词的浮尘已经渐渐沉淀。但机器智能并非随之淡出人们的视线,而是以实际的生产和业务需求为先,通过投入实践和使用来不断演进与升级。
过去一年是金融科技创新迭出的一年。带着这样的骄傲和乐观展望明年,未来的运维会有怎样的形态变化?会出现怎样的技术和行业变革?作为下一代运维技术的全力推行者与实践者,天旦认为,智能化将是未来运维的重要基础。

智能运维来自Gartner所提出的AIOps概念,「算法驱动的运维」。它指通过大数据和机器学习等技术的引入,自动化地完成运维过程,实现智能地事件报警、故障定位和根因分析。

AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination.

——Gartner

而这正是不断迭代的BPC所全力投入的前进方向。BPC 云图智能告警是运维方式的完全革新,它所包含的五大场景化告警+一键故障分析基于天旦多年积累和潜心研发的智能算法。五大场景化告警分别是服务水平监测、可用性监测、异常监测、突发变化监测、紧急事件监测,他们各自针对运维中常见的故障特征各有所长,同时组合使用可彼此配合,给你滴水不漏的保障。

服务水平监测


服务水平监测是所有告警中的“基础款”,也就是最常用的阈值检测。当设定指标在某一时间点的值高于或低于所设定的阈值即报警。
就像人人都有几件白T恤,服务水平检测就是运维监控的白T恤。它的原理简单直接,并且可以设置多种颗粒度和多种警告严重等级,正像是怎么搭都不会出错的必备单品。同时,它的不足也是因为作为“基础款”它不太灵活,在应对更复杂的情况时还需要组合其他的告警场景。

案例:

2019年某日,某省农村信用社的所有应用服务器从11:46开始响应时间陡增,触发响应时间阈值,BPC发出服务水平告警。由于告警在故障发生后仅仅1分钟内就发出,运维人员及时介入,快速完成了排障并恢复了业务的正常运行,有效地避免了业务损失与影响客户体验。



可用性监测


可用性监测是计算设定指标在设定时间段的平均值(也就是该时间段内的“可用性”),当均值高于或低于阈值时触发告警。
在日常运维中经常出现这种情况,某种交易类型的交易量并不恒定,具体指标可能会出现波峰和波谷的交替。如果只是用服务水平监测,就会出现误报(告警条件设置太精细,稍有波动就触发报警)和漏报(为避免过度敏感告警阈值设置太高或太低,除非波动很剧烈否则不会报警)。此时就需要可用性监测出手了。
保险的时候,顾问总会在推荐主力险种之外给你搭配一个管得不那么细、但覆盖范围比较大的保险作为补充,避免一些主力险覆盖不到的情况,这就是可用性监测啦。它通过计算一段时间的平均值,来抹平上下波动导致的差异,保证当指标出现整体性偏离时可以及时发现并处理。

案例:

过去,某股份制商业银行的密码修改业务的交易量随时间分布非常不平均,多次调整告警阈值仍反复出现低谷时间段漏报(交易量波动始终不超过阈值)和高峰时间段误报(交易量在阈值附近震荡,反复引发告警)。在升级BPC4.3后,运维人员利用可用性检测为该业务应用设定了针对特定时间段的告警(如凌晨设置低阈值,白天设置高阈值),通过计算一段时间内的平均值来降低影响,减少误报。



异常监测


异常监测的基础是BPC 云图智能告警的智能算法,需要先开启基线功能。开启后,BPC会通过记录历史的数据表现,自动为指定指标设定出一条拟合的基线。当指标在某一时间点的值超过基线的上下边缘时,即代表该指标出现异常,从而触发告警。
在实际的运维工作中,银行的交易类型可能在2000种以上,每种交易类型的正常值各不相同,要逐一设置阈值和均值的话,运维人就不用吃饭睡觉回家了。异常检测就像是BPC的autopilot功能,它可以批量对一批指标生效,并且依据智能算法从它们各自的历史表现中总结出各自的“正常值”,从而省心省力地完成对全部指标的整体监控覆盖。

案例:

某地城商行的个人网上银行访问量出现了小幅波动,因为该业务类型的交易量绝对值较低,相对整体交易量的影响非常小,原本的通用告警条件未被触发。在启用异常检测告警后,BPC根据过往访问量建立了基线,并且通过及时告警帮助发现了数次网络攻击及业务部门促销活动带来的访问量异常。



突发变化监测


突发变化监测和前面三种不同的区别是,它并不依赖某个确定的绝对标准线来判断,而是根据指标的变化趋势来分析。比如某个指标并没有一个平均水平线,它可能某天很高、某天很低,但仍然是正常情况;但如果它从很高的状态突然开始下跌,或者从很低的状态突然开始上升,那就说明需要注意了。
你知道人有时候会有种直觉,虽然你说不出哪里不对劲,但总感觉哪里不对劲了。突发变化监测能让BPC也拥有这种“直觉”。比如冲正交易,每天的量或高或低都说不准,但有一点是肯定的,它正常情况下是缓慢地升高或降低的;当它突然在短时间内快速上窜或下跌,指标的值呈现出一条陡峭的曲线,那就说明是出问题了。

案例:

某日,某省农村信用社的核心应用发生了一个比较严重的问题,由于5124(来往业务记账接口)和5127(超网业务记账)交易超时,支付无法完成,导致出现5744自动冲正交易,数据库活期分户锁表,同时交易量累加,交易响应时间长达40多秒,支付类业务阻塞,交易量突然陡降,但仍处于正常交易量范围内,未触发阈值告警。这种情况下,如果通过判定交易量的斜率来作为告警条件,这种问题就可以尽早发现,大大缩小问题的影响面。



紧急事件监测


紧急事件监测和上面四种都不太一样,上面四种是统计指标,它们需要计算某个时间颗粒度内的数据来判断;而紧急事件是实时指标,当指定指标或事件发生时就会告警。
人们都说“出轨只有0次和无数次”,因此很多伴侣都对出轨抱有“0容忍”的态度,一旦出现坚决分手。BPC的“0容忍策略”就是紧急事件监测,当所设定的指标(比如某种关键交易的特定字段值或交易返回码)出现时,即触发告警。由于它是实时指标,因此与上面四种场景的1分钟颗粒度(需要以此为依据进行统计计算)不同,紧急事件监测可以设置最低1秒钟的颗粒度,这一点在双十一这样的重点保障场合下非常有用。

案例:

证监会对OTC交易系统的单笔交易故障定位的时间要求是5分钟。在实际场景中,在1分钟颗粒度的告警监控下,单笔交易最终确认失败耗时1分钟以上,告警需要经过至少1分钟才能形成统计数据,确定交易成功率跌破100%,此时用户已因交易失败提出投诉。在设置紧急事件监测后,一旦有交易发生失败,BPC立即在下一秒发出告警,为运维人员的故障定位和排障争取到宝贵时间。

 
未来的运维是智能的运维。运维人员拥有深入理解业务系统的全局视角,不仅仅是科技创新的主角,更会是未来企业业务成长的中流砥柱。如果你也想成为这样的「增值型运维人」,请点击下图访问天旦官网Netis学院( https://open.netis.com/college )了解更多信息:

释放科技潜力,启航数字化转型

天旦拥有丰富的行业专业知识,客户覆盖领先的数百家银行金融机构。天旦产品每天保障超过200亿笔金融交易的顺利达成。秉承让运维稳定无忧,运营做你所想的使命,天旦保障IT组织从容推进数字化转型战略而不用担忧现有关键业务的可靠运行,更可以通过互联数据促进新核心新应用即刻落地,建立实时客户洞察,直抵科技引领业务创新的新大陆。


关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。

【声明】内容源于网络
0
0
天旦Netis
上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
内容 236
粉丝 0
天旦Netis 上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
总阅读0
粉丝0
内容236