大数跨境
0
0

深度解析AI基础设施:诺基亚数据中心新品与Agentic AI智能运维架构

深度解析AI基础设施:诺基亚数据中心新品与Agentic AI智能运维架构 51学通信
2025-11-18
0
导读:深度解析AI基础设施:诺基亚数据中心新品与Agentic AI智能运维架构



本文技术原理深度参考了《RCR Wireless News》于2025年11月13日发布的编辑报告Nokia expands data center portfolio with new offering》,旨在为读者提供一个诺基亚如何通过高性能交换机和Agentic AI工具来满足下一代AI工作负载性能和可扩展性需求**的全景视图。


场景引入:智算中心的王总工与102.4 Tb/s的挑战

欢迎来到我们虚构的“天穹”智算中心。我们的主角是中心总工程师王总工。王总工正面临一个迫在眉睫的挑战:数据中心集群的计算能力(XPUs)正在以指数级增长,特别是用于生成式AI(GenAI)训练和推理的工作负载,对网络带宽和时延提出了前所未有的要求。

现有的网络架构已经难以支撑高达1.6 Terabit Ethernet (TE)接口和高达百万级XPU的扩展需求。同时,网络运营中的故障识别和根因分析耗时过长,严重拖慢了宝贵的AI训练周期。王总工正在评估诺基亚最新发布的7220 Interconnect Router (IXR-H6)系列和增强的Event-Driven Automation (EDA) AIOps工具,期望它们能解决性能瓶颈和运维效率低下的双重困境。

1. 应对AI工作负载:数据中心性能的剧变

人工智能的爆炸式增长已经戏剧性地改变了数据中心的运作方式,并持续推动着硬件和运营工具的不断演进。为了满足对AI工作负载日益增长的性能和可扩展性需求,诺基亚扩展了其数据中心网络产品组合。

1.1 7220 IXR-H6:核心性能翻倍

诺基亚推出了全新的7220 Interconnect Router (IXR-H6) 系列,其设计核心目标是显著提升数据吞吐量和接口性能。

“The 7220 IXR-H6 series reaches 102.4 Tb/s and 1.6 TE speeds, supporting next-gen AI workloads and ultra-large-scale data centers.”
“The 7220 IXR-H6 switches deliver up to 102.4 Tb/s throughput with 1.6 Terabit Ethernet (TE) interfaces — doubling throughput and interface performance within the same footprint.”

王总工意识到,IXR-H6系列在不改变物理空间的情况下,实现了吞吐量和接口性能的翻倍。高达102.4 Tb/s的吞吐量和1.6 TE接口速度,使其能够支持下一代AI工作负载和超大规模数据中心的严苛要求。

1.1.1 针对超大规模AI工厂的优化

为了确保在高负载AI训练环境中数据的顺畅流动和拥塞管理,7220 IXR-H6交换机还支持特定的行业标准。

“They support Ultra Ethernet Consortium (UEC) specifications to manage packet flow and congestion in AI factory environments scaling to one million XPUs,”

这表明该硬件不仅仅是高性能的路由器,更是针对“AI工厂”环境进行了特殊优化,能够支持扩展到一百万个XPU的规模,并遵循**Ultra Ethernet Consortium (UEC)**规范来管理数据包流和拥塞。

王总工将IXR-H6的关键性能参数总结如下:

表 1.1-1 7220 IXR-H6 核心性能参数与支持特性

参数维度
关键指标
数据或描述
针对AI的优势
最大吞吐量
102.4 Tb/s
在相同占地面积内实现吞吐量翻倍
支持超大规模数据中心和AI训练工作负载
接口性能
1.6 TE (Terabit Ethernet)
在相同占地面积内实现接口性能翻倍
满足下一代AI工作负载对带宽的极高要求
规模支持
100万 XPUs
AI工厂环境的超大规模扩展能力
确保大规模集群中的数据包流管理
标准支持
Ultra Ethernet Consortium (UEC) 规范
管理数据包流和拥塞
专为AI工厂设计的拥塞控制机制
散热选项
液体冷却与空气冷却
提供部署灵活性,适应高密度计算环境
应对AI工作负载带来的高热密度挑战

1.2 散热与部署的灵活性

在高性能AI数据中心中,散热效率是决定硬件可靠性和密度的关键因素。7220 IXR-H6系列提供两种散热变体:

  1. 液体冷却 (liquid-cooled)
  2. 空气冷却 (air-cooled)

这种设计选择允许运营商根据其数据中心的基础设施和高密度计算需求,灵活选择部署方式。

2. 开放与集成的选择:网络操作系统战略

王总工明白,硬件的强大只是第一步,网络操作系统的选择直接关系到运维的复杂性和未来的扩展性。诺基亚在IXR-H6交换机上同时支持两种主流的网络操作系统(NOS),为运营商提供了极大的灵活性和开放生态系统的兼容性。

2.1 双操作系统支持:SR Linux NOS与SONiC

诺基亚的新型交换机同时支持以下两种操作系统:

  1. 诺基亚的 SR Linux NOS
  2. 开源的 SONiC

“Available in liquid– and air-cooled variants, the new switches support both Nokia’s SR Linux NOS and open-source SONiC, offering operators deployment flexibility and open ecosystem compatibility.”

这种双重支持体现了诺基亚开放、灵活的网络架构承诺。

2.2 部署决策的权衡与选择

诺基亚的IP营销主管 Heidi Adams 解释了运营商在选择这两种路径时需要进行的权衡。王总工需要根据“天穹”智算中心内部的技术能力和对集成度的需求来做出判断。

表 2.2-1 SR Linux NOS 与 SONiC 的部署决策对比

部署路径/操作系统
核心优势倾向
目标受众/适用场景
诺基亚提供的支持
开源 SONiC
开放性、灵活性、社区支持
寻求开放网络环境、倾向于使用自有设计团队或开源社区进行软件开发的公司
提供选择、技术软件支持和广泛硬件平台访问
诺基亚 SR Linux NOS
完全集成解决方案、高级软件特性、专用工程团队支持
偏好完全集成解决方案、需要访问高级软件特性和专用工程团队的公司
提供选择、技术软件支持和广泛硬件平台访问

如果王总工的团队拥有强大的内部开发能力,并希望灵活地从开源社区获取新功能,他们可能会选择 SONiC 路径。如果他们更倾向于一个完全集成、由供应商提供高级软件功能和专用工程支持的解决方案,那么 SR Linux NOS 将是首选。无论哪种选择,诺基亚都承诺提供技术软件支持以及对一系列高级硬件平台的访问。

3. 运维的革命:Agentic AI驱动的AIOps

对于王总工而言,硬件性能解决了带宽问题,但运维效率的提升则需要依赖最新的AI技术。诺基亚通过增强其事件驱动自动化平台(Event-Driven Automation, EDA),引入了基于Agentic AI(智能代理AI)的AIOps能力,旨在简化问题识别、根因分析和修复过程。

3.1 Agentic AI的核心价值:将停机时间减少96%

Agentic AI(智能代理AI)是当前AI基础设施领域最前沿的概念之一。它与传统的机器学习和GenAI应用有所不同,它强调自主行动和推理能力。

Agentic AI reduces downtime by 96% – EDA’s AIOps uses natural language and automation to identify and resolve issues faster, based on Bell Labs and Futurum findings.”
“Nokia also enhanced its EDA platform with agentic AI-based AIOps capabilities designed to simplify issue identification, root cause analysis, and remediation through natural language interactions.”

根据贝尔实验室(Bell Labs)和 Futurum 的研究结果,EDA平台的AIOps工具能够使用自然语言和自动化更快地识别和解决问题。最惊人的成果是,这种能力可以将停机时间减少高达96%

3.2 EDA平台如何运作:网络理解与实时关联

EDA平台的核心在于其“智能助手”(intelligent assistant)的能力。王总工发现,它不仅能理解用户提出的问题,更关键的是,它“理解你的网络”。

这一能力由诺基亚的AIOps引擎提供支持,通过实时关联三种关键数据源来实现:

  1. 遥测数据 (Telemetry)
  2. 拓扑数据 (Topology)
  3. 变更数据 (Change data)

通过对这些数据的实时关联,EDA平台能够解释当前网络中正在发生什么,以及下一步应该采取什么行动。

表 3.2-1 EDA平台 Agentic AI AIOps 核心流程与功能

流程阶段
关键功能
技术实现/数据依赖
核心价值
用户交互
自然语言交互
平台利用GenAI和Agentic AI能力理解复杂查询
简化运维工程师的操作和问题描述难度
实时分析
实时关联数据
诺基亚AIOps引擎关联遥测、拓扑和变更数据
快速准确地解释网络状况,而非简单数据报告
问题解决
自动识别与根因分析
Agentic AI驱动的自动化工具
极大地简化问题识别、根因分析和修复过程
结果输出
提供行动建议
根据实时分析结果解释“下一步该做什么”
将停机时间减少96%,实现高度可靠的网络运营

Senior Vice President Vach Kompella 强调,通过利用 Agentic AI 的复杂性,诺基亚旨在推动高度可靠的网络运营,以跟上变革的步伐。

4. 市场驱动力与产品时间线

王总工在做投资决策时,必须考虑产品的成熟度和可用性。诺基亚本次发布是基于对AI采用的惊人增长以及数据中心运行方式的剧烈变革做出的响应。

4.1 AI时代的硬件和工具演进

诺基亚的更新旨在提高连接超大规模AI训练和推理工作负载的可靠性、效率和速度。随着数据中心适应日益复杂的 Agentic AI 应用,硬件和运营工具的不断发展是必然的。

诺基亚的IP Networks高级副总裁 Vach Kompella 提到:

“The astonishing growth in AI adoption has led to a dramatic overhaul in how data centers operate, and is driving constant evolution in hardware and operational tools.”

4.2 关键产品可用时间线

产品的推出并非同步。王总工需要规划分阶段的部署策略。

表 4.2-1 诺基亚新产品及功能可用时间线

产品/功能
关键时间点
描述
EDA AIOps Features
本年度结束前 (by the end of this year)
基于 Agentic AI 的增强功能,用于简化运维和减少停机时间
7220 IXR-H6 Switches
2026年第一季度 (first quarter of 2026)
新的高性能互连路由器,提供102.4 Tb/s吞吐量
发布日期
2025年11月13日
诺基亚宣布扩展数据中心产品组合

这意味着王总工可以在2025年年底前开始测试和部署 EDA 平台带来的 Agentic AI 运维能力,而硬件升级则需要等到2026年年初。

5. 市场背景与行业关联性

虽然本次发布聚焦于数据中心基础设施,但其目标——支持AI工作负载——与更广泛的通信行业趋势紧密相关,包括私有5G和电信AI的加速发展。

5.1 数据中心与电信云的融合需求

诺基亚作为一家芬兰供应商,其数据中心产品组合的扩展,不仅瞄准了大型互联网公司,也瞄准了需要构建强大AI基础设施以支持其电信AI战略的运营商。

相关的行业趋势,例如:

  • 电信AI (Telco AI)
  • 电信云 (Telco Cloud)
  • 私有5G (Private 5G)
  • 开放RAN (Open RAN)

这些趋势都依赖于底层高性能、高可靠性的数据中心基础设施。无论是在数据中心内部运行AI模型,还是通过私有5G网络将工业边缘数据高效回传,都需要102.4 Tb/s级别的骨干网络来支撑。正如王总工所理解,强大的网络连接是所有这些先进技术实现价值的先决条件。

5.2 开放生态与行业标准

诺基亚同时支持 SR Linux 和开源 SONiC 的策略,凸显了行业对于开放标准的追求。此外,对 Ultra Ethernet Consortium (UEC) 规范的支持,是数据中心领域为适应AI时代异构计算和高速互联需求而进行的重要标准化努力。

王总工最终决定,7220 IXR-H6系列的高性能和Agentic AI驱动的EDA平台,将是“天穹”智算中心实现下一代AI工作负载支持和运维自动化的关键投资。IXR-H6就像是智算中心的大动脉,保证了海量数据的高速流动;而EDA AIOps则是网络的智能医生,保证大动脉始终畅通无阻,避免了人为的诊断和修复延误。

6. 常见问题解答 (FAQ)

FAQ环节将重点覆盖文章的核心概念、关键流程以及工程师容易混淆的知识点。

Q1:诺基亚7220 IXR-H6交换机相对于前代产品最大的性能提升是什么?
A1:最大的提升在于性能翻倍。7220 IXR-H6交换机能够在相同的物理空间内提供高达102.4 Tb/s的吞吐量,并支持**1.6 Terabit Ethernet (TE)**接口。这种性能飞跃旨在满足下一代AI训练和推理工作负载对超大规模数据中心互连的需求。

Q2:Agentic AI(智能代理AI)在EDA平台中是如何实现“将停机时间减少96%”这一惊人效果的?
A2:Agentic AI通过结合自然语言交互自动化功能,简化了问题识别、根因分析和修复过程。它能够实时关联遥测数据、拓扑数据和变更数据。这种实时、智能的关联分析,使得EDA平台能够快速准确地解释网络发生的问题并提供修复建议,从而将网络运维的停机时间大幅减少。

Q3:为什么诺基亚要同时支持其专有的 SR Linux NOS 和开源的 SONiC?
A3:诺基亚旨在为运营商提供部署灵活性和开放生态系统兼容性。选择 SR Linux NOS 的公司倾向于完整的集成解决方案和专用的工程支持。选择开源 SONiC 的公司则希望利用开放环境的灵活性,通过自有团队或开源社区定制软件功能。这体现了诺基亚在开放网络架构上的战略承诺。

Q4:7220 IXR-H6交换机是如何针对“AI工厂环境”进行优化的?
A4:7220 IXR-H6交换机支持 Ultra Ethernet Consortium (UEC) 规范。这一规范用于在AI工厂环境中管理数据包流和拥塞,使其能够支持扩展至一百万个XPU的大规模集群。此外,它还提供了液体冷却和空气冷却两种散热选项,以适应AI工作负载产生的高热密度环境。

Q5:诺基亚的Agentic AI AIOps功能和7220 IXR-H6硬件的可用时间点是怎样的?
A5:根据诺基亚的计划,EDA平台的 Agentic AI AIOps 增强功能将在本年度结束前(2025年底)即可部署。而全新的 7220 IXR-H6 交换机则将在2026年第一季度开始供货。

Q6:除了AI负载,Agentic AI AIOps 还能解决哪些数据中心运维中的常见问题?
A6:虽然Agentic AI的引入是为了应对AI工作负载带来的高复杂性和高可靠性需求,但其核心能力在于通过自然语言交互简化问题识别、根因分析和修复(remediation)。这意味着它可以应用于解决各种网络故障、配置错误和性能问题,通过实时关联遥测、拓扑和变更数据,为运维团队提供准确的“发生了什么”和“下一步该怎么做”的指导。

Q7:诺基亚将 Agentic AI 能力集成到 EDA 平台中的核心动机是什么?
A7:核心动机是应对AI采用的惊人增长及其对数据中心运营方式造成的巨大变革。诺基亚希望通过利用 Agentic AI 的复杂性,推动高度可靠的网络运营,并以所需的速度来跟上技术变革的步伐。


【声明】内容源于网络
0
0
51学通信
51学通信的4个主打: - 主打5G核心网及演进 - 主打运维岗位 - 主打信令分析 - 主打系统性学习
内容 2068
粉丝 0
51学通信 51学通信的4个主打: - 主打5G核心网及演进 - 主打运维岗位 - 主打信令分析 - 主打系统性学习
总阅读16
粉丝0
内容2.1k