大数跨境
0
0

面向智算的高速互联协议对比:UB 2.0 vs. CXL 3.0 vs. NVLink 5.0

面向智算的高速互联协议对比:UB 2.0 vs. CXL 3.0 vs. NVLink 5.0 存储前沿技术评论
2025-10-12
0
导读:引言:困于“黄金囚笼”的AI巨兽在AI大语言模型的“暴力美学”时代,我们惊叹于万亿参数模型的强大,也习惯于将目

引言:困于“黄金囚笼”的AI巨兽

在AI大语言模型的“暴力美学”时代,我们惊叹于万亿参数模型的强大,也习惯于将目光聚焦在GPU芯片那令人炫目的算力(FLOPS)上。然而,一个隐秘的危机正悄然浮现:狂飙的算力一头撞上“内存墙”

这面墙的核心,源于一个矛盾的现实:性能最强的板载高带宽内存(HBM),虽以其TB/s级的超高带宽构筑了AI计算的核心堡垒,但其区区百来GB的容量,却成了一座“黄金囚笼”。数据一旦超出这方寸之地,GPU只能频繁等待外部数据,性能一落千丈。HBM的有限容量是制约AI模型规模与效率的“阿喀琉斯之踵”。如何打破这道容量墙?业界已形成共识:基于高速互联构建分布式全局内存池。这条互联总线的性能,不再是锦上添花,而是直接定义了整个AI集群效率的上限。

正是在这片决定未来的战场上,一场关于互联协议标准的竞争已然拉开序幕。一方是背靠整个服务器产业、志在统一天下的CXL联盟;另一方是AI霸主NVIDIA用以巩固其帝国的护城河——NVLink。近日,一个代表“中国方案”的全新力量,国产高带宽互联协议“灵衢”(Unified Bus)携其2.0规范正式入局。

这不只是一场技术标准的对决,更是关于未来AI基础设施构建哲学、生态主导权乃至产业格局的巅峰博弈。下面,我们将深入技术腹地,从设计哲学、物理性能、带宽实力到生态战略,分析这三大标准的核心差异。

1. 身份与野望:三大协议的顶层设计

每个协议的诞生,都承载着不同的使命和愿景。


灵衢 UB 2.0 CXL 3.0 NVLink 5.0
角色定位 泛在计算的统一者 开放生态的连接者 AI帝国的统治者
主导力量
华为主导,开放规范
行业联盟标准 (Intel, AMD, Arm等)
NVIDIA 专有
核心目标
面向CPU/ GPU/ DPU/ 存储等场景的统一互联,构建可组合基础设施。
基于成熟的PCIe生态,实现CPU与CXL设备间的内存一致性与资源池化。
服务于NVIDIA GPU集群,提供极致的GPU间通信带宽与效率。
技术路径 自主定义全栈协议
,从物理层到协议层全新设计,追求最优性能与灵活性。
“站在巨人肩上”
,复用PCIe 6.0物理层,专注协议层创新,生态兼容性强。
“垂直整合的艺术”
,软硬件一体的专有协议栈,为自家产品深度优化。
开放程度 开放规范,旨在打造广泛的国内乃至国际生态。 联盟标准,规范公开,会员共享,生态最为庞大。 封闭体系,是NVIDIA生态系统的核心壁垒,不对外开放。

依据: CXL 3.0 明确“使用 PCIe 6.0 PHY @ 64 GT/s、PAM4、FLIT + FEC/CRC”,并引入 Fabric/多级交换与管理机制;NVLink 5 代支持 NVLink Switch/NVL72 级联。


解读:

  • NVLink是“专才”,目标明确且极致——服务好NVIDIA自己的AI超算,构建一个性能无匹但高度封闭的“苹果生态”。
  • CXL是“通才”,它的智慧在于拥抱现有生态,通过在PCIe上“加层”的方式,以最小的变革成本撬动最广阔的通用服务器市场,构建一个开放的“安卓生态”。
  • 灵衢 (UB)是“雄才”,它不满足于修补现有体系,而是选择从零开始构建一个更理想化的统一互联标准,既要NVLink的性能,也要CXL的开放与通用性,其战略雄心可见一斑。

2. 速度与激情:物理层(PHY)及带宽的硬核对决

互联协议的性能,基石在于物理层(PHY)——它决定了数据在物理介质上“跑”得有多快、多稳。

2.1 物理层核心特征

特性
灵衢 UB 2.0 CXL 3.0 NVLink 5.0
单通道速率 106.25 Gbps
 (最高档)
64 GT/s
 (继承PCIe 6.0)
~112 Gbps
 (推算值)
信号调制
NRZ / PAM4
PAM4 PAM4
纠错机制(FEC) 灵活可配
 (如RS(128,120)或Bypass)
固定
 (PCIe 6.0 FLIT模式)
专有,未公开细节
物理媒介 光电混合
 (支持铜缆、背板、光模块)
主要为PCB/铜缆 (PCIe生态)
短距铜缆/硅光,依赖NVSwitch

在单通道速率上,UB 2.0与NVLink 5.0同属“百G速率俱乐部”,性能处于第一梯队,而CXL 3.0受限于其PCIe 6.0的“出身”,速率为64 GT/s。这意味着在相同的通道数下,前两者拥有天然的带宽优势。

更值得关注的是,灵衢明确支持光电混合,这意味着它的愿景不止于机柜内,而是早已瞄准了未来数据中心级、跨机架的超远距离高速互联。

2.2 带宽正面刚:谁是真正的“速度之王”?

为了公平比较,我们统一换算成业界通用的“x16通道单向带宽”口径,看看它们的理论峰值。


灵衢UB2.0 (x16等效) CXL3.0 (x16) NVLink5.0 
单向理论带宽 ≈ 199 GB/s (启用 RS(128,120) 近似,效率约 93.75%) ≈ 128 GB/s
每条link的单向带宽50GB/s (x16 lane等效带宽不明)
官方口径
规范定义106.25 Gbps/lane; 单个Ascend 910C NPU的双向聚合带宽为784GB/s
x16双向256 GB/s
NVIDIA Blackwell  GPU 18条Links的双向聚合带宽1.8 TB/s

(注:“x16等效”指的是16条 PCIe/CXL “lanes”,仅为横向对比,不代表UB的官方定义;NVLink口径为18个“links”,每条link的lane数量没有公开。

总的来说,UB 2.0理想情况下可以达到200 GB/s的水平。CXL 3.0受限于PCIe 6.0物理层,带宽约为128 GB/s。NVLink 5.0情况不明,但是最新的NVIDIA GPU设备的聚合链路带宽远高于最新的基于UB的Ascend 910C NPU

3. 生态与格局:鼎立之势

技术规格只是基础,最终决定成败的是生态。


灵衢 UB 2.0 CXL 3.0 NVLink 5.0
生态基础
独立物理层,可复用通用SerDes
根植于庞大的PCIe生态
NVIDIA
的软硬件王国
互联范畴
板内 → 机柜 → 数据中心级(光互联)
板内 → 机柜级 (通过CXL Switch)
板内 → 机柜级 (通过NVLink Switch)
战略愿景
构建开放、异构、可组合的算力底座
成为x86/Arm服务器的标配,实现通用计算的内存池化。
打造用于训练巨型模型的终极AI超级计算机集群。

至此,三大协议的轮廓与未来路径已然清晰,一幅AI基础设施的“三国鼎立”图景跃然纸上:

  • NVIDIA NVLink阵营性能王者,但也是一座孤岛。它将继续在高端AI训练市场独领风骚,通过极致的垂直整合提供无可匹敌的集群性能。选择它,意味着拥抱最强的性能,也意味着被NVIDIA生态完全“锁定”。

  • CXL阵营开放的联邦,通用市场的基石。凭借其与生俱来的PCIe兼容性和广泛的行业支持,CXL将成为未来通用服务器、云计算和企业级数据中心的主流内存扩展方案。它的优势在于开放、灵活与成本效益,但在金字塔尖的AI性能方面还需要持续发力追赶。

  • 灵衢 (UB) 阵营破局的挑战者,新生力量。灵衢以“开放标准”之名,行“性能对标NVLink”之实,展现了巨大的潜力。它既为国内构建自主可控的算力体系提供了核心技术底座,也以其先进的指标和开放的姿态,为全球市场提供了NVIDIA和CXL之外的“第三个选择”。它的成功,关键在于能否快速构建起一个繁荣、协作的产业生态。

结语

AI竞赛的焦点,既在算力也在存力。随着模型参数迈入万亿级别,算力的天花板不再是单一的芯片峰值FLOPS,内存墙问题同样严重。破墙之道在互联。内存墙下的这场互联标准之战,远未到终局。NVLink的专有壁垒、CXL的广泛渗透、以及UB灵衢的异军突起,共同描绘了未来AI算力架构演进的激荡图景。对于中国而言,“灵衢”的出现,不仅是一项技术的突破,更是在核心计算领域吹响的集结号。互联是智能计算系统的关键,这场关乎未来的博弈,值得我们持续关注。

【声明】内容源于网络
0
0
存储前沿技术评论
“存储前沿技术评论”由热爱存储技术的专家和爱好者创建,专注于分享存储领域的最新研究、技术、和产品趋势,旨在为存储行业的学者、学生以及工业界同行提供有价值的信息和观点。欢迎您关注和交流,让我们一起探索存储技术的无限可能。
内容 98
粉丝 0
存储前沿技术评论 “存储前沿技术评论”由热爱存储技术的专家和爱好者创建,专注于分享存储领域的最新研究、技术、和产品趋势,旨在为存储行业的学者、学生以及工业界同行提供有价值的信息和观点。欢迎您关注和交流,让我们一起探索存储技术的无限可能。
总阅读12
粉丝0
内容98