大数跨境

AI算力扩容的新瓶颈竟是铜缆,英伟达押注光互连

AI算力扩容的新瓶颈竟是铜缆,英伟达押注光互连 DeepTech深科技
2026-04-06
27
导读:铜缆省电、便宜、可靠,但它画了一个笼子。

英伟达GPU互连技术演进:从铜缆局限到光互连破局

打开英伟达NVL72机柜后盖,首先映入眼帘的并非72颗GPU,而是逾5000根同轴铜缆构成的密集网络。这些铜缆总长超3.2公里,构成机柜1.36吨自重的主要部分。

机柜中央配置9块NVSwitch托盘,被上下各9块计算托盘夹层布局。该设计源于铜缆物理限制:1.8TB/s带宽下信号传输距离不足一米,NVSwitch必须贴近GPU以实现最短距离连接。

(NVIDIA DGX GB200 NVL72 NVSwitch,来源:ServeTheHome)

这台机柜浓缩了英伟达的核心困境:铜缆虽具成本与可靠性优势,却制约系统规模上限。2026年GTC大会,黄仁勋宣布将通过光互连技术把GPU集群扩展至576颗甚至1152颗,并随即向三家光学企业注资60亿美元。

铜缆的黄金时代与物理瓶颈

2024年NVL72亮相时,铜缆是工程最优解。英伟达网络高级副总裁Gilad Shainer指出:"铜是理想连接方案,无源特性带来零功耗与高可靠性。"实测表明,若改用光模块替代铜缆,整机柜将额外消耗20千瓦电力,占其总功耗的六分之一。

(NVL72系统架构,来源:Nvidia)

铜缆的无源特性造就显著可靠性优势。在百万级链路的大规模集群中,可插拔光模块日均故障达数十次,而铜缆近乎零故障。这使得72颗GPU可基于NVLink实现全互连,构建单台最大AI计算单元,推理性能较H100提升30倍。

然而,ChatGPT级模型训练需数千GPU协同。NVL72机柜内部虽实现高效互联,但多机柜间仍依赖InfiniBand,通信瓶颈严重制约训练效率。1.8TB/s带宽下铜缆已触及物理极限,系统扩展必须切换传输介质。

光互连:从技术质疑到战略投入

光互连并非新概念,但将其用于GPU内部Scale-up网络(替代Scale-out外部网络)面临功耗与体积挑战。2024年评估显示,可插拔光模块方案将使NVL72增重20千瓦功耗及额外机柜空间占用。

转机源于共封装光学技术(CPO)。该技术将光引擎集成至交换芯片封装,大幅削减功耗与体积。2025年英伟达率先在Spectrum交换机量产CPO,验证了光学互连的可行性,为Scale-up网络部署积累关键经验。

铜光混合路线图与供应链布局

2026年GTC发布的Vera Rubin NVL576与Rosa Feynman NVL1152系统采用分层策略:机柜内部延续铜缆连接,跨机柜采用光互连。这种"短铜长光"方案既保留铜缆可靠性优势,又突破规模限制。

(Vera Rubin NVL576架构,来源:Data Center Dynamics)

至2028年的Feynman系统,英伟达将推进CPO深度集成。可能路径包括:仅NVSwitch集成CPO形成两层网络,或GPU直连CPO构建单层网络以降低延迟。后者虽能提升性能,但对交换芯片工艺提出更高要求。

(CPO技术对比,来源:Celestial AI)

2026年3月起,英伟达通过三笔各20亿美元投资锁定光学供应链:布局Coherent与Lumentum保障激光器产能,注资Marvell整合Celestial AI的光子互连技术。这些举措提前卡位CPO量产核心环节,为2030年占35%光模块市场的行业预测奠定基础。

此举对UALink等开放标准阵营形成压力。当开放方案硬件尚处研发阶段时,英伟达已构建完整光学生态链。正如Shainer所言:"铜始终是理想方案——前提是你能用它。"当前语境下,铜缆已无法覆盖AI基础设施的规模需求,光互连开启全新发展空间。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5091
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读47.0k
粉丝0
内容5.1k