大数跨境
0
0

广发证券数据中心网络智能运维实践

广发证券数据中心网络智能运维实践 Ethan教跨境电商
2025-11-26
6

文/广发证券信息技术部   曹绍勇   黄河

广发证券以“成为具有国际竞争力、品牌影响力和系统重要性的现代投资银行”为战略愿景,秉承“以价值创造成就金融报国之梦”的使命,致力于通过科技创新与国际化布局,打造综合金融服务平台,服务国家战略与实体经济高质量发展。在此战略框架下,数据中心网络作为支撑全球业务高效运转的基石,其重要性愈发凸显。数据中心网络不仅是践行“稳健经营,持续创新”理念的技术载体,更是其实现“科技-金融-产业”良性循环、赋能新质生产力培育的战略性支点,为推进行业创新实践、构建数字化金融生态奠定了坚实基础。




网络运维挑战

广发证券经过多年的持续建设,形成了同城双活、异地灾备体系架构,并逐渐构建分布式多地云化数据中心,有力地支撑生产、办公和管理业务的运行,但同时,数据中心网络设备不断增加,架构复杂化给网络运维带来诸多挑战,传统网络运维无法满足日益增长的网络需求。


1. 数据孤岛,检测不精细

在日常监控中,传统多个运维系统的数据相互孤立,数据之间缺乏关联性,依赖人工整合分析,另外,传统SNMP协议采集精度差(通常5分钟粒度),难以主动感知网络微突发类异常(亚秒级粒度)。目前数据中心包括传统业务网络、组播业务网络、GPU业务网络等多种组网,而之前多套传统运维系统及多个视图,存在数据孤岛,无法统一分析和监测,无疑给复杂的运维工作带来更大的困难。


2. 隐患难寻,风险缺预防

目前数据中心网络既有传统业务,又有组播业务,大模型相关的智算业务也在建设中,业务扩缩容和网络变更频繁,随之网络中可能存在一些潜在风险,例如,数据中心网络中会采用大量的光模块,光模块器件的可靠性远低于网络设备硬件本身,运维需要系统性地排查网络中的风险,从根源上减少故障的发生。


3. 路径不明,镜像成本高

网络流量与业务路径黑盒化,传统NPM镜像部署成本高昂却难以解决数据割裂问题。例如,为了业务平稳运行,数据中心网络普遍采用高可用架构设计,如MLAG和路由ECMP负载等技术,却造成业务流量路径不再唯一。运维人员因此只能在所有业务流量可能经过的设备上进行流量统计,人工逐段定位丢包位置,并且这些动作都必须等待排障窗口期。




数据中心网络智能运维实践

广发证券坚持以科技金融为重大战略之一,持续推进数字化转型。为了更好保障用户体验,广发证券携手华为,基于iMaster NCE-FabricInsight建设统一的数据中心网络智能运维平台(如图1所示),以提升数据中心网络运维效率。智能运维平台重点围绕统一可视化、网络风险预防、智能化故障定界三个方向展开实践。


1. 打造统一数据底座,多Fabric统一监控

针对多系统数据孤岛、检测粒度不精细等问题,网络智能运维平台构建了统一的数据底座,目前已纳管交易区、非交易区、互联网区、大数据区、组播私网区、测试区等Fabric网络,数据对象包含网络设备、全网TCP业务流的特征报文、关键业务流的全包、组播业务流等。通过Telemetry技术实现多种不同架构网络指标的主动订阅与亚秒级数据上报,监控维度更加丰富,包含接口链路、队列缓存、光模块、配置、表项、丢包检测等,实时监控全网资源、故障、性能质量情况,并通过对接微信平台统一告警通知。


图1   广发证券网络运维全景


2. 从被动到主动,网络风险预测

防火胜于救火,如何系统性排查网络风险也是重点课题之一。目前,广发证券正在构建统一的网络主动预防体系,基于知识图谱的数据底座,进行整网风险建模与特征智能识别(网络健康巡检大屏如图2所示),从组网、路由、设备板卡、电源、风扇、链路、光器件等多个维度系统全面地分析网络潜在风险,识别风险原因并提供处理建议,转变传统被动救火的运维模式,降低故障发生概率,支撑网络健康运营。


图2   网络健康巡检大屏


3. 三维立体的流镜像,应用异常智能化定界

广发证券正在大力推进网络基础设施的智能化建设,然而,应用质量与网络流量分析割裂、网络路径呈现黑盒状态,网络看不清业务流量路径,故障定位困难。若在所有网络节点部署传统NPM流量镜像,整体建设成本高昂,而且依旧无法解决应用-网络-设备一体化的数据整合与分析,数据割裂导致定位时间长、运维效率低。


为解决上述问题,广发证券通过在网络智能运维平台基础上叠加了xFlow智能全流和xFlow按需抓流技术,网络智能运维平台基于ERSPAN技术轻量级镜像整网全部业务流的TCP建链状态,还原业务流在网络中的真实转发路径,并关联网络设备信息,感知微突发、丢包等KPI指标,实现“网络路况”可视化,就像地图导航感知每条道路的通行质量一样(业务质差问题排障逻辑如图3所示)。继而,再在网络最复杂、业务容易出问题的关键位置(例如防火墙、负载均衡、关键路由交换设备前后)部署xFlow全流分析探针,1:1采集业务流的全包数据,检测业务流传输过程中的丢包、时延等关键网络性能,实现分段定界。针对网络指标有异常的分段,结合路况信息,可按需在沿途的网络设备上远程镜像,进一步缩小分段定界的范围,直至定位故障点。此方案特点在于:以低成本方案“广撒网”,在重点区域“深挖壕”,再结合设备协同完成“按需补位”,构建立体化、多层次的流分析体系。


图3   业务质差问题排障逻辑




下一步发展展望

当前,网络智能运维平台以“数据+算法”为驱动,实现了数据一体化分析,显著提升了网络运维的效率。后续,广发证券一方面将在智能计算、证券组播行情交易、大模型等网络建设运维领域持续探索,另一方面将聚焦应用体验保障,推动运维模式从以网络设备为中心向以应用体验为中心转变,构建应用质量主动保障体系,以新质生产力赋能智能运维,提升金融业务服务体验,为金融创新做出新的贡献。




金科焦点 • 推荐阅读



技术:大模型数据量子科技


解码:高层政策行业学术专访


报道:金融展




【声明】内容源于网络
0
0
Ethan教跨境电商
跨境分享堂 | 持续更新实用经验
内容 45944
粉丝 1
Ethan教跨境电商 跨境分享堂 | 持续更新实用经验
总阅读229.5k
粉丝1
内容45.9k