随着业务对信息系统的依赖度提高,维护信息系统的安全稳定运转成为保障某券商业务有效性与连续性的关键。由于该券商业务量不断扩大,作为信息系统的使用者与管理者,运维部门面临严重挑战。
某券商运维部门面临三大挑战
1.故障排查被动,排障困难且繁琐。
该券商的故障处理流程具有以下特点:
排查日志,耗时较长;
借助经验且过度依赖专家;
对照系统开发专用监控工具周期较长。
2.数据实时性较低,无法满足“T+0”需求。
由于缺少实时业务数据,数据分析只能做到“T+1”,时效性严重不足。
3.监控视角单一,无法充分满足运营需求。
该券商的监控视图不够灵活,无法满足多场景(如双十一、重保)的快速调整需求。
该券商的运维管理系统除基础架构管理外,并不具备对网络服务质量、交易级性能进行管理的能力,无形中为业务的稳定运行埋下隐患:
排障时,传统竖井式管理无法在分钟内定位是网络问题还是应用问题;
网络运维部门排除硬件故障时,手段单一,除了使用人工Ping,临时捕获数据包分析,别无他法;
应用运维部门通常采取人工排查日志的方式,同时排查多个接口,耗时耗力,很难实现分钟内定位具体应用的组件问题。
因此,为提高运维人员的排障效率,实现分钟级别的故障恢复能力,保障业务连续性,运维部门急需部署全链路网络性能监控方案,建立生产系统的故障定位与阈警机制。
全链路网络性能监控方案
方案部署过程
该方案主要部署了天旦网络性能管理NPM。NPM的数据捕获点包括上海中心与北京中心的核心设备,其中针对云环境的流量捕获通过安装Agent,将流量输出至TAP设备。
(该券商网络拓扑图)
捕获点设置完成后,采集和分析网络数据包,对重要链路、关键设备和核心服务实施监控,建立全面的监控视图。数据采集通过交换机把数据镜像(SPAN)输送至流量管理设备(TAP)进行流量汇聚处理,再把汇聚处理过的数据接入Smart probe设备。并在TAP上给不同的输入端口打上不同的VLAN标签以示区分,在NPM中配置相对应的虚拟接口实现不同链路的区分。
网络性能监控流程
通过TAP Switch汇聚、过滤、处理经重要线路、设备端口和各业务系统镜像或分光出来的流量,再利用Smart Probe对流量进行存储、处理,最后发送给NPM Server进行应用组件的梳理,实现实时故障监控、定位、诊断及报表等功能。
同时,为保障重要业务系统的稳定运行,运维部门在其中一台TAP Switch上对业务流量进行过滤,接入BPC Server,由BPC对其进行业务性能分析。
部署成果展示
目前,NPM的覆盖范围包括上海中心的核心汇聚交换、二层接入设备及相关关键设备流量,北京中心的核心交换及相关设备。利用监控视图实时展示分支机构、关键网络设备、应用组件之间、报盘出口的网络负载量、性能、可用性,为问题排查提供直接的信息。
针对分支机构、重要外链线路做多场景视图展示,直观、实时反馈各个分支机构的网络指标,帮助该券商迅速了解网络运行情况。
秒级排障案例
问题突发
2019年7月5日,某分支机构向运维部门投诉网络体验差,网络登录经常超时,严重影响业务办理。
问题排查
网络部收到反馈,从专线、IPsecVPN、防火墙、路由器、交换机等一层层逐步排查,排查时长接近3天,最终定位并解决了带宽瓶颈问题。由于排查时间较长,业务部门与运维部门均十分焦急,严重影响业务生产。
NPM秒级数据功能
部署天旦网络性能管理NPM后,为了验证NPM的故障定位功能,网络部联想到此前排查带宽故障时的经历,决定通过NPM回溯网络流量来进行测试分析。透过NPM链路视图看到该分支每秒专线速率达到1Mbps,而且主要是某应用的业务。
持续观察近5分钟,发现该应用入站出站的速率最低也在500Kbps左右。
问题定位
该业务应用主要用于传输图片、媒体文件等,完成单笔业务至少耗时4秒左右,按照最低值计算,而分支机构的专线带宽为2M,该业务专线一直处于打满状态,由此快速定位出带宽瓶颈问题。
问题总结
NPM的秒级数据刷新功能,实时展现业务数据的运转情况,为运维部门提供解决问题的数据支撑,帮助运维人员迅速定位问题,为恢复业务生产争取宝贵时间。
该券商是这样评价天旦的
“之前我们一直没有这样的监控产品能实时反应链路状态的情况,这下NPM给我们了有力的证据来进行硬件扩容了,这就是项目上线时为什么我们一直要求NPM能够秒级展示数据的原因。”

