随着云原生技术的不断发展,越来越多的企业在开发业务系统时考虑采用云原生技术。软件架构经历了单体架构、SOA架构的早期发展后,随着容器技术的发展,云原生微服务架构已成为企业的新一代业务系统的主要规划方向。金融机构IT系统从原来的集约化部署,逐步地转变为分布式部署,逐渐往数据中心2.0分布式、云化迁移。在“十五五”新质生产力规划中,已明确定义“健全数据要素基础制度,深化数据资源开发利用”① 是深入推进数字中国建设、完善数字经济治理体系的有力支撑。因此,运维中心团队需推行新形态业务系统的数字化稳定性治理建设,亟需构建云原生微服务架构场景下的运维能力。
在建设云原生微服务架构场景下的运维保障体系时,跨部门团队应急响应协同机制、业务连续性保障,以及端到端全链路可观测体系这三者缺一不可。而在业务的数字化稳定性治理方面可能面临如下挑战:
如何实现监控全覆盖微服务链路并准确告警。从前台页面响应与用户体验,到后台应用性能消耗,再到云服务应用层与云资源编排,业务链路冗长且复杂,微服务化后的服务模块众多,如何进行告警信息收集,尽量避免误告,是微服务场景运维监控的基本要求;
如何准确定位业务链路的故障。若实现了告警全覆盖,业务故障期间很有可能整个业务链路产生大量冗余告警,针对海量的业务告警信息,如何进行精准的故障定位,是微服务场景的重要运维难题;
如何构建微服务业务链路追踪分析机制。在监管层面,BPC6重视监管单位如金管局提出了重要业务全链路的业务连续性与应急管理要求,如何覆盖海量的微服务业务全链路并快速响应,是微服务场景运维的重要挑战;
如何构建业务统一运维运营大数据。通过整合链路数据、交易记录、指标,运维人员在同一平台上分析可观测数据时可以提出更多有意义的问题。如何有效利用这种统一视角可大幅提升数据的关联性和实用性,为微服务系统的优化和问题诊断提供了更大的可能性。
CrossFlow BPC 6.0 (下称BPC6)是天旦全新发布的一款面向云与微服务场景的可观测数据分析系统,可覆盖银行、证券、基金等多个金融核心业务场景。BPC6 不仅仅是一个分析工具,还提供了运维数据、运营数据的互联互通、智能化数据分析的功能,可以为业务“发生中的问题、为什么问题发生、将要发生什么情况、问题如何处理”等运维日常工作流提供完善的数据证据与支撑。参考可观测能力的五个层级能力划分,BPC6的可观测数据架构如下:
BPC6可观测数据架构
Packets&Profiling剖析层:BPC6 剖析层基于cloudprobe云探针,可采集和提供实时的原始业务报文,并通过报文数据分析,实现网络性能分析;
Traces&Debugging排错层:BPC6排错层通过对剖析层提供的原始报文数据进行解码,可实现全覆盖的链路追踪流记录,并通过运行数据和信息去诊断故障出现的原因;
Metrics&Overview概览层:BPC6概览层基于排错层的flow流记录,可提供一段时间内的客观交易指标;
Events&Alerting告警层:BPC6告警层基于概览层的指标,结合智能化的故障分析算法,实现全方位的应用+网络定界分析,主动通知故障;
Dependency Analysis关联分析层:BPC6关联分析层结合运行数据信息,厘清系统之间的模块,并进行关联分析。
为此,BPC6在设计开发之初充分考虑了在数字化稳定性治理过程中可能出现的运维挑战,并尝试在面向云与微服务场景中采用创新方案,提升客户的运维投资收益。主要有如下几点:
1.云上告警准确率大幅提升。BPC6基于网络报文数据,在提升数据准确率方面做了两项工作。首先,BPC6配套探针在采集和传输过程中采用了自研的可靠传输算法,确保在传输过程中不会因网络抖动或异常情况导致缺包漏包,该专利技术方案具有如下优点和效果:
(1)可靠性。运用基于消息队列的多线程库技术,在数据包采集后,对数据包进行可靠性的验证,用交互的消息队列,去规避网络层丢包,实现确保数据包的可靠性;
(2)稳定性。使用异常读写模式,当消息通道中的队列在内存溢出的情况发生时,会自动通过阀值机制来规避消息溢出,从而保障数据包的稳定性;
(3)准确性。通过主动时间戳注入机制,确保数据包的时间戳实时精准,可以更好的还原业务在实际运行过程中的真实状态,从而保障的数据包的准确性;
(4)多样性。利用多协议标签交换技术,相同转发等价类的分组在MPLS网络中将获得完全相同的处理,满足数据包消费平台的分类监控场景,呈现了数据包采集后监控场景的多样性。
云上云下流量传输路径示意图
2.BPC6具备数据源质量检测的机制。当网络数据源质量不佳,如果存在镜像数据传输过程中丢包的异常场景,天旦自研的数据源检测智能算法能够自动检测并判断异常情况,将最符合实际业务情况的结论汇总到BPC6的监控指标中,大幅提升业务指标以及对应业务告警的准确性。
数据源质量检测功能示意图
3.服务路径图的展示与告警能力增强。为了满足微服务场景中的全链路告警覆盖,BPC6增强了服务路径图功能模块的展示与告警能力,通过层级视角简化监控覆盖范围较大的场景:
(1)相较于较早前的版本,BPC6新版本综合考虑了跨分布式微服务系统的故障定位需求(业务在多个分布式系统间跳转),新定义的总分图可以将多个分布式微服务系统汇总在同一个监控域中,当业务故障发生时,用户将会在非常清晰简洁的总图中发现告警信息,并且可以快速钻取到对应的微服务系统子图中进行定位和诊断,整个过程的高效执行,提升了业务故障的快速响应能力;
(2)天旦充分考虑了微服务系统的大量冗余告警场景,以及由此而产生的告警风暴问题,针对性推出了新一代告警收敛智能算法,BPC6在总分图中同时分析不同层级业务视图中的多个告警信息,并最终关联和定位故障根因节点,最终实现在跨分布式微服务系统中完成告警的层层收敛;
(3)分布式微服务系统的运行实体是动态伸缩的,即随着业务的变化而自动调整自身的实例数量。在多集群的容器平台,特别是目前主流的Kubernetes容器编排平台,BPC6已实现无缝对接Kubernetes API并获取资源清单,实现了该场景下的智能对接、智能梳理、智能协议识别的算法。
层级视角的服务路径图
4.业务全链路快速响应能力增强:在重要业务全链路的业务连续性与应急管理方面,监管层面逐步提升要求,如中国人民银行在2025年发布的《业务领域网络安全事件报告管理办法》明确定义了四级事件等级,提到“主要功能在业务高峰时段出现两个以上省级行政区范围整体中断运行15分钟以上或者单个省级行政区范围整体中断运行30分钟以上的”升级为较大网络安全事件。因此,BPC6确保在业务出现故障时,快速发现问题并推动业务快速恢复,将影响降到最低,在多个角度增强了业务全链路的快速响应能力:
(1) BPC6全新推出了新一代分布式链路追踪能力,全面支持OpenTelemetry链路追踪协议,同时也兼容如Ali Sofa Tracer等厂商协议,分布式链路追踪能力无需依赖上层业务关联字段(如业务流水号等字段),可以更好的分辨链路前后递进关系,甚至可以跨节点关联、多链路关联等较强的追踪能力;
(2) 在微服务链路追踪分析过程中,结合新一代智能基线告警的动态计算能力,为每一个微服务业务生成历史基线数据,结合动态基线告警能力,解决用户的重要微服务业务全链路的运维难题。
微服务链路追踪分析过程示意图
5.构建统一视角的可观测数据平台:作为业务级性能分析平台,BPC6从上到下整合了全量解码的业务交易明细字段、业务全链路追踪协议信息、业务趋势分析运行指标、重要链路告警记录、以及原始TCP/IP协议栈信息,让用户可以在同一视角内,结合运行数据信息,理清系统之间的模块,并进行关联分析。特别是重要交易业务的分析,为运维和运营等不同角度提供决策依据:
(1)运维大数据:由点及面的大数据运算机制,聚合同一时段内同一交易类型的所有交易明细,实时计算并生成对应的交易业务链路和交易业务趋势指标,实现重要交易业务的维度监控,在同一模块中完美整合了宏观指标和微观交易明细数据,方便用户快速分析交易业务的健壮性。
交易链路与趋势的运维指标
(2)运营大数据:基于交易级视角的业务维度的穿透机制,按照交易层级逐层展示,并采用大数据逻辑聚合指标,真实还原业务节点在交易维度上的宏观穿透耗时;对交易维度链路追踪时,聚合的要素中包括交易类型维度,在跨交易类型的交易链路中,可完美适配并拆分成多点展示。
交易级视角的运营指标
BPC6通过上述能力,努力实现数字化稳定性治理,在面向云与微服务场景中的运维场景中,自研和开发了可靠传输算法、质量评估智能算法、新一代告警收敛智能算法、智能对接&智能梳理&智能协议识别算法、新一代智能基线告警、由点及面的大数据运算机制以及基于交易级视角的业务维度的穿透机制等关键能力,结合已完成信创适配的BPC6版本,提升客户的运维投资收益。
① 《中国人民银行业务领域网络安全事件报告管理办法》(2025年5月12日经中国人民银行第8次行务会议审议通过 2025年5月23 日中国人民银行令〔2025〕第4号公布 自2025年8月1日起施行)
http://www.pbc.gov.cn/zhengwugongkai/4081330/4406346/4406348/5801223/index.html

