大数跨境

运维工程师,你还撑得住吗?

运维工程师,你还撑得住吗? 天旦Netis
2018-08-06
2
导读:面对「指数级增长」的运维压力,运维工程师你还撑得住吗?天旦支招,助你一臂之力。

根据媒体报道,招商银行副行长赵驹近日表示,招商银行有两个APP,包括手机银行、掌上生活的月活用户在3000万左右,日活将近500万左右。未来三年,招行的目标将是把这两个APP的月活做到2个亿以上,日活1000万以上。


毫无疑问,这将意味着支撑数字化业务的运维体系的「指数级增长」,一个让无数运维工程师闻风丧胆的词。企业业务依托于数据和网络的程度越来越高,必然也就意味着支撑业务的IT系统越来越庞大复杂。运维工程师,你还撑得住吗?



发现:起航之前,别忘了检查你的「忒修斯之船」


受限于企业主观的发展规划以及客观的资源条件,IT系统并不是一口气从底层彻底翻新的,而是像忒修斯之船一样,由不同批次部署、不同厂商承建的不同模块拼接而成,每一个都有自己的设计思路、技术架构和使用方式,这对于后期的运营维护是极大的负担和挑战。这一个个模块就像一口口深浅不一的竖井,虽然出口处有办法连通,但井内藏着什么问题和隐患很难一目了然,要实地了解,就必须逐一深入探查。这也是随着业务增长,运维部门的人力和时间投入迅速增加的根本原因。


要监控业务和应用状态,以往的日志式分析通过向服务器插入SDK来获取相关数据,不仅反应迟缓、数据庞杂,还会大大占用服务器计算资源,拖累性能表现。而且日志式监控受限于数据量,无法做到完整、全量监控,必然出现漏报延误。


天旦BPC采用独特的网络旁路技术,闪电部署、对服务器性能毫无影响。利用镜像获得的全量数据,BPC可以对整个IT系统进行彻底地梳理和呈现,帮助架构工程师发现冗余、陈旧、薄弱环节,大大提高整个系统的运行效率。


基于网络旁路的业务性能监控非常依赖数据报文的解码能力,而依托天旦在银行、电信、证券、保险等多个行业的丰富部署案例,BPC内置有5年自主研发的专利解码引擎,自动解码500+业务的2000+种协议,覆盖行业内几乎全部协议方案。

 

透过网络发现和拓扑梳理,BPC将自动生成可视化的服务路径视图,整个数据中心的业务访问关系与用户感知对应呈现。



告警与定位:给运维工程师一双「上帝之眼」


竖井式的运维现状,导致不同应用、不同业务线需要不同的监控工具,加重了运维负担。而不同的监控告警工具拥有不同的性能、配置方法,也带给工程师极大的维护困难。告警建设全靠大水漫灌,不管告警条件是否精确,宁可误报一千,不可漏报一个。这不仅拖累性能表现,还会给以后的维护埋下隐患。

 

在最新的BPC4.3中,告警功能有了全面的升级,我们将它命名为「云图智能告警」。如同不同的云图反映了不同的天气状况一样,我们将丰富的客户告警案例进行梳理、规划,总结为五大告警场景,针对不同的业务应用提供从案例中总结而来的、满足实际生产要求的监控条件,运维工程师只需简单设置宽容度标准即可快速应用。

 

而在覆盖全域的可视化服务路径视图基础上,BPC还将不同应用、不同模块的状态指示统一到同一套监控系统下,整个数据中心的状况尽收眼底。以业务为中心的告警监控不仅敏感性高、感知力强,还能跨业务线覆盖整个业务面,一套平台监控多套业务系统。一旦事件发生,BPC能够从整个IT系统中迅速准确定位故障节点,大大减少运维工程师确定问题需要的时间。



分析:从7x24H微信待命状态解放和发展生产力


随着业务发展的需要和分布式架构的兴起,「同城双活」、「两地三中心」等非集中式的IT运维模式越来越常见。随之而来的,就是如「一个医生十个护士」一般,「少量运维专家 + 大量一二线运维人员」的组织架构。这不可避免地带来了另一个问题:从下至上地冗长低效沟通影响了事件响应速度和排障相率。


天旦某位售后工程师有一个特殊的微信群,这是他负责的某家银行用户单位发起的运维微信群,成员是该银行各个地区、各个部门、各个级别的运维人员。由于银行有「5分钟内响应告警介入处理」的硬性规定,一般的事件通知平台和流程根本无法满足及时沟通的需要。

一线运维人员:XX一线专家,AA业务在BPC中发生了告警。

XX专家:我需要了解一些指标,请在BPC中截图多维度统计视图和交易明细列表给我。

一线运维人员:接下来该如何处理?

XX专家:等等,这个问题你得找YY专家。

......

这样看来,即使监控工具再精准,用户来来回回的沟通成本依然不可小看。这正是上文微信群建立的核心原因。


一线运维人员在接收到告警后,往往无法判断问题的根本原因。于是,需要在专家的一步步指导下,组成逐层展开分析,反复沟通最终确认问题根源。这不仅让故障响应的速度和排障效率大打折扣,同时,在越来越高的运维保障要求面前更显得力不从心。运维专家分身乏术,那就只能让一线运维人员也拥有故障分析能力。

 

BPC通过加入智能算法实现自动钻取,告警分析功能一键完成。一线运维人员在接到告警后,可以直接从BPC得到具体的故障发生域和故障细节,无需运维专家干预。有了故障的具体细节,运维人员就有了独立处理故障的能力,缩短故障响应流程和确认时间,提高排障效率。



天旦赋能:技术的问题,交给技术解决


Apple曾说「为促进人类进步的伟大头脑制造工具」。天旦则相信人的潜力是无穷的,只要帮助工程师们从重复低效劳动中释放出来,就能够创造更好的未来。既然是技术带来的问题,那么就应该由技术来解决。这也是贯彻在天旦BPC业务性能管理产品设计之中的理念。


对于在运维工作会出现的各种问题,天旦归纳为「发现」-「定位」-「分析」三个环节的瓶颈,逐一攻破,并落实到BPC产品功能之中,让运维工程师可以释放潜力、真正实现IT运维助力企业业务发展。


在AIOps(智能化运维)的目标下,BPC还加入了更多自动化和算法驱动的智能化功能。


例如传统告警条件的设置。传统告警设置基于某些字段数值的判断,但是在当下业务越来越丰富、运维情境越来越复杂的情况下,固定阈值的告警条有很大的局限性。例如某业务的告警条件是低于98%的交易成功率,在日常应用中也许满足需求,但当该业务因促销活动而出现业务量大幅增长的情况时,告警的洪灾席卷而来,98%的阈值设置就会因为业务基数的增大而变得滞后。

 

针对这种情况,BPC的云图智能告警加入了全新的智能基线算法,通过历史数据自动分析确定合理的告警阈值,并且随业务量变化而动态改变。对正方形不断切角的确能逐渐接近圆形,但如果抓住了圆的本质,就能用圆规高效地作出,这就是智能基线算法的领先性。



「科学技术是第一生产力」,这句名言人人知晓,但真正理解并付诸实践的却寥寥无几。天旦相信,通过BPC一系列独创而领先的技术功能,将大大释放科技的真正潜力,让运维工程师成就更多,帮助企业的业务发展之路走得稳、走得快。



以上发现-定位-分析以及云图智能告警功能,已在BPC4.3版本中正式发布。



关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。


【声明】内容源于网络
0
0
天旦Netis
上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
内容 236
粉丝 0
天旦Netis 上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
总阅读584
粉丝0
内容236