一站式企业应用性能管理平台—RealSight APM 新版本结束研发,闪亮登场。新版本围绕当前客户对分布式系统性能管理和应用性能自动诊断的需求,重点提升分布式系统性能分析和应用性能指标异常检测两方面能力。
分布式系统性能分析
现阶段,新技术、新需求的推动使得传统以Tomcat、Jboss、Weblogic等应用服务器为核心+数据库开发的双层结构应用,或加上Apache、Nginx等Web服务器构建的三层结构应用,正逐渐演变为更复杂的n层分布式部署结构。微服务(MicroServices)理念的普及也让应用分布部署趋势更加明显。

然而,分布式系统是一把双刃剑,在解决了业务问题的同时,也为应用性能保障和故障排查带来了巨大的挑战。错综复杂的服务调用关系以及更深的事务处理层级使得应用故障恢复时间延长,运维工作量大幅增加。针对分布式应用运维面临的问题,RealSight APM 全新推出分布式应用性能分析功能,解决企业应用系统升级带来的后顾之忧。究竟新功能有哪些亮点?让我们一一看来。
分布式应用系统一站式管理
首先,RealSight APM 能够一站式管理分布式应用系统中,从用户体验到基础设施的完整堆栈,通过可定制仪表盘聚合底层监控指标,管理分布式应用整体运行状态,屏蔽海量机器数据,简化管理流程。

分级管理监控指标
监控指标分级管理,一旦发现全局指标异常,能够实现自上而下,逐层钻取下层基础监控数据,排查问题根源。

应用拓普结构自动发现
分布式应用系统事务处理过程通常涉及分布部署的多个节点,RealSight APM能够自动探查发现系统节点,事务处理过程中的调用关系,生成拓扑图。

实时监控运行状态
应用运行过程中各个节点状态指标数据被实时记录,分析。一旦发生风险,第一时间告警,并定位问题根源。

代码级异常检测分析
对于指定事务处理过程,支持代码级别的执行过程中调用方法堆栈分析,以树形结构展现调用关系,分析方法执行时间,定位异常代码。

数据库SQL执行过程监控
很多情况下,应用性能下降是由于数据库SQL执行异常导致的。对于包涵SQL执行过程的事务,RealSight APM 能够精确捕获过程中产生的SQL语句,追踪执行过程耗时。

分布式事务执行耗时分析
分布式事务执行过程由多节点运行的程序参与,一旦出现性能问题,根源性分析则异常复杂。RealSight APM 能够追踪分布式事务执行全过程,以时间轴展示各步骤执行耗时,极大地简化了问题排查过程。

应用性能指标异常检测
对于拥有上百应用的企业来说,保障应用系统正常运行,排查系统潜在风险需要耗费大量人工成本。为了能够帮助运维人员快速发现海量指标数据中隐藏的异常,辅助定位潜在风险,RealSight APM 研究突破了时间序列指标异常检测关键技术,实现智能化的自动异常检测功能。

产品核心异常检测算法跑分成绩在该领域权威基准测试排行榜(NUMENTA ANOMALY BENCHMARK,NAB)中位列第二,超越位列第三名的tweeter公司异常检测算法近10分 。

从客户需求角度来看,要实现自动化的应用性能指标异常检测, 运维系统需要帮助运维人员回答如下几个重要问题:
概率分布:
系统运维指标在历史表现上是什么情况。例如http平均响应时间的均值在哪,标准差多大,分布如何。
模型拟合:
系统运维指标是否可以用模型表示。例如内存使用率是否是线性增长,在线用户数是否有周期变化。
预测分析:
系统运维指标未来可能表现是什么。例如未来一个小时CPU的使用率。
预警阈值:
系统运维指标的阈值情况。例如活跃线程数的波动在什么范围是合理的。
异常检测:
系统运维指标是否有异常,异常在哪。例如当前cpu使用率过高是否有异常。
问题定位:
系统在什么时间段开始发生异常,持续时间,以及可能是什么引起的。
容量规划:
如何优化一些系统运维指标或为未来可能情况做准备。例如想降低http平均响应时间我们需要增加多少内存,未来24小时用户量增长10倍应该多加多少机器。
产品围绕客户关注的核心需求,利用自主研发的大数据分析处理算法,自动计算应用监控指标概率分布,生成拟合数学模型预测趋势和预警阀值,从而主动探测、发现、定位指标异常,并通过邮件、短信等方式告警通知运维人员。

RealSight APM 致力于一站解决应用性能管理问题,利用智能化、自动化的手段简化企业运维管理流程。未来我们将不断突破核心技术,研发实用的功能,助力企业信息化建设。


