在我们的生产生活中,电力承担着不可或缺的角色。它和空气、水以及网络一样,已经成为现代生活的必需品,少一样都会让人“窒息”。试想,如果疫情期间家里没电,有多少人会在自我隔离中崩溃?而在我们放心用电的背后,是无数电力人在保障着电网的安全稳定运行及科学合理调度。
随着现代城市的加速发展,电力企业对信息化的要求也不断提高。近年来,电力系统的业务IT化程度日益扩大,业务支撑部门面临着来自内外部的各种挑战。
挑战1、缺乏面向业务全流程的智能分析系统
业务由多个应用组成,而每个应用部署位置环境都不一样,核查分析业务需要跨多台主机。无法实现以业务为视角的立体式全景监控分析。
挑战2、缺乏一个快速有效的深度挖掘平台
各个应用缺少业务明细日志分析,无法从业务渠道、业务类型、影响时间、成功率等各个更细的维度找出系统应用和业务瓶颈,无法针对性地进行深度挖掘分析。
挑战3、缺乏一个面向一线和后端运维人员的分析平台
日益复杂多样的业务,运维人员每日游走在各主机中提取相关数据,再进行汇聚分析,使得运维的工作日益繁重。故障发现相对被动,故障定位过程复杂、效率。
天旦某电力客户遇到的实际问题
针对电力业务性能监控面临的问题与挑战,天旦以情况明、趋势清、处置快、决策准为产品设计理念,以服务为中心,建立核心业务系统的网络和应用性能监控系统及告警平台,实现业务和网络性能监控和业务访问审计。
同时,基于网络数据的旁路方式,不改变应用系统的架构,不在服务器上部署Agent,减少测试和运维成本。
本期,我们就结合国网某省电力公司的实际部署案例,聊一聊基于网络数据的性能监控如何在电力行业落地应用。
基于网络数据的应用性能监控部署
旁路方式,对生产系统零风险监控
本客户案例中,项目监控覆盖PMS系统、工单池系统、95598系统、营销系统、缴费系统等核心业务系统,其运行状态的好坏,直接影响到电力公司整体信息化系统运行状态的好坏。因此在部署监控时,首要关注的是兼容性风险问题。
方案基于网络旁路的方式,通过交换机镜像或分光技术获取应用系统各逻辑组件的网络数据,利用对网络数据包解码技术,从网络层和应用层进行解码,对业务系统实现零风险监控。
主从分布式部署,集中管理、易于扩展
项目采用主从分布式部署,支持跨物理环境(跨机房、跨楼)部署,集中管理,易于扩展。解决了过去由于部署位置环境多样,带来的业务核查分析难度大、效率低问题。
建立网络与应用统一运维视角
通过对业务真实访问路径的刻画,覆盖网络设备和应用组件,实现应用性能指标、业务性能指标的端到端监控。建立网络与应用统一运维视角,提高跨部门沟通、协助效率。
业务性能监控主要功能实现
(1)快速发现业务路径
基于网络数据,快速发现业务连接关系,梳理并构建PMS系统、工单池系统、95598系统、营销系统、缴费系统等业务访问路径,通过业务路径视图展现,便于发现各个应用系统之间的依赖关系,有助于优化业务逻辑,提升整体运维效率。
(2)应用状态墙
通过应用状态墙的30个“琴键”呈现PMS、工单池等系统最近30分钟应用的状态。当业务系统出现异常,对应“琴键”就会由蓝色(正常状态)转为红色告警状态。实时全系统端到端业务监控,对各系统性能状态一览无遗,同时能定位单个应用性能。
(3)端到端的PMS业务监控视图
依据业务的真实逻辑访问关系,建立业务端到端的监控视图。在PMS系统中覆盖PMS、ISC、BPM、GIS1.6、Oracle。下图中界面上方时间线,表示最近60分钟应用的状态。当业务出现异常,时间线就会由蓝色的正常状态变为红色告警状态,并同步定位故障节点。
(4)PMS 系统组件业务状态实时展示
展示PMS 各逻辑组件的业务性能状态,如服务访问量、响应率、响应时间等指标,可在一个解码中进行对比观察,从而确定故障原因。
应用故障分析案例
某日,运维人员收到业务性能监控系统发出的响应时间超出阈值告警,具体排障过程如下:
Step1:发现故障
通过端到端业务路径实时监控,可以全局了解PMS等系统组件的业务量、平均响应时间、成功率、响应率等性能指标,定位故障节点;
Step2:分析故障
通过一键故障分析可以发现iscintegrate类请求有些访问的响应时间长达30秒以上;
Step3:定位故障
通过查看访问的请求和响应明细报文可以看到,iscintegrate类请求的响应表单长度达几十页,因此响应时间较长;
Step4:修复&验证
通过获取故障发生时的真实数据,查看故障前后的指标趋势,可以获取该告警描述的业务当前状态,通过数据的分析与回溯定位故障,最终解决问题。
方案价值与更多创新实践成果
方案主要价值
部署旁路方式的业务性能管理系统,可以有效对业务系统整体进行性能实时监控、分析、定位。同时基于历史数据能对业务系统每个节点进行评测、基线分析、性能趋势分析,帮助容量规划,建立业务系统智能运维体系。
此外,提高故障响应时间、减少服务中断时间不仅可以有效减少由于业务系统故障所造成的业务损失,同时大幅提高业务部门的系统使用体验。
更多创新实践
构建“全生命周期”应急指挥平台
基于业务性能监控中对故障的发现-预警-巡检-诊断-恢复,建立从突发事件风险感知、态势推演、智能应急决策、应急处理,到处置措施评价、信息采集的突发事件应急管理全生命周期。
面对突发事件时,能够做到迅速掌握受影响情况,提前评估事件影响可能,通过多维信息辅助科学决策,故障快速定位、预案关联,建立“预防为主、常备不懈”的应急思想。提升突发事件应急处理能力与效率。
如果您想了解电力行业业务性能监控的更多功能详情,可以点击下方按钮,下载完整版电力业务性能监控解决方案。

