推理 Token 大爆发
人工智能模型的进展速度极快,在过去六个月里,模型的改进幅度超过了之前六个月。这一趋势将会持续,因为三个扩展定律(scaling laws)相互叠加、协同作用:预训练扩展(pre-training scaling)、预训练后扩展(post-training scaling)以及推理时间扩展(inference time scaling)。
今年的GTC大会重点关注应对新的扩展范式(scaling paradigms)。

Claude 3.7在软件工程方面展现出了令人难以置信的性能。Deepseek v3表明,上一代模型能力的相关成本正在大幅下降,这推动了其进一步应用。OpenAI的o1和o3模型表明,更长的推理时间和搜索意味着能得到更好的答案。就像预训练定律(pre-training laws)早期阶段一样,在对这些模型进行预训练后添加更多计算资源似乎没有限制。今年的GTC大会重点在于推动智能和 tokens 的爆发式增长。英伟达致力于在推理成本方面实现高达35倍的改进,以实现模型的训练和部署。
去年的口号是 “the more you buy, the more you save”, 但今年的口号是 “the more you save, the more you buy” 。英伟达在其硬件和软件路线图中实现的推理效率提升,使得在成本效益高的情况下部署模型以及其他变革性企业应用时能够解锁推理能力(reasoning)和智能体(agents),从而实现广泛的推广和部署——这是杰文斯悖论(Jevons’ paradox)的一个典型例证。或者用黄仁勋的话来说:“the more you buy, the more you make”。
市场对此感到担忧。人们担心,DeepSeek式的软件优化以及英伟达推动的硬件不断改进,会导致节省的成本过多,这意味着对人工智能硬件的需求会减少,市场将面临token过剩的情况。价格确实会影响需求,随着智能的成本下降,智能能力的前沿会不断拓展,然后需求就会增加。如今,由于推理成本的限制,人工智能的能力在成本方面受到约束。人工智能对我们生活的实际影响仍处于初期阶段。随着成本下降,净消费量(net consumption)反而会增加,这一现象颇具讽刺意味。
对 token通缩(token deflation)的担忧类似于只讨论光纤泡沫时期每个数据包的互联网连接成本下降,却忽略了网站和互联网驱动的应用程序最终会对我们的生活、社会和经济产生的影响。二者的关键区别在于,带宽需求是受限的,而随着能力大幅提升且成本下降,对智能的需求会无限增长。
英伟达提供了支持杰文斯悖论(Jevons’ Paradox)情况的数据。如今模型需要超过100T(万亿)个token,一个推理模型所需的token数量是之前的20倍,所需计算量是之前的150倍 。

测试时计算需要数十万个token/查询,而且每月有数亿次查询。预训练后扩展(post-training scaling),也就是让模型“学习深造”的过程,每个模型需要数万亿个token,而且有数十万个经过预训练后扩展的模型。此外,智能体AI意味着多个模型将协同工作来解决越来越难的问题。
黄仁勋数学每年都在变
每年,黄仁勋都会给行业带来新的数学规则。黄仁勋数学向来令人费解,而今年又出现了一个新的规则,这让我们更加摸不着头脑。
第二条黄仁勋数学规则是,带宽应以双向来表示。NVLink5的带宽被标称为1.8TB/s,因为它的发送带宽为900GB/s,接收带宽也为900GB/s 。这两个数值相加后用于规格说明表,但在网络领域,标准做法是标注单向带宽。
现在,又出现了第三条黄仁勋数学规则。GPU数量将以封装中的GPU芯片(GPU dies)数量来计算,而不是以封装数量来计算。从 Rubin 系列开始将采用这种命名方式。第一代 Vera Rubin 机架将被命名为NVL144,尽管其系统架构与GB200 NVL72类似,都有相同的 Oberon 机架和72个GPU封装。这种命名方式会让大家理解起来很头疼,而且需要不断澄清,但无奈我们都生活在黄仁勋的世界里。
现在,让我们来回顾一下路线图。
GPU和系统路线图

Blackwell Ultra B300

Blackwell Ultra 300已经亮相过了,与我们去年圣诞节分享的细节相比没有任何变化。这是通过减少许多(但不是全部)FP64算术逻辑单元(ALUs),并用FP4和FP6算术逻辑单元取而代之实现的。双精度工作负载主要用于高性能计算(HPC)和超级计算任务,而非人工智能(AI)工作负载。虽然这令高性能计算社区感到失望,但英伟达从商业角度出发,更侧重于人工智能领域,因为这是个更重要的市场。
B300 HGX版本现在被称作B300 NVL16。它将采用之前被称为“B300A”的Blackwell单GPU版本,现在该版本被重新命名为“B300”。这是双芯片B300的一半,并且由于常规B300中单个封装内的两块GPU芯片之间没有高速D2D(芯片到芯片)接口,所以可能会产生更多的通信开销。
B300 NVL16将取代B200 HGX形态,后者采用16个封装,每个封装内有GPU芯片并安装在基板上。为实现这一点,将两个单芯片封装放置在单个SXM模块上(总共8个SXM模块)。目前尚不清楚英伟达为何选择这种方案而非沿用8×双芯片B300的方案;我们推测,更小的CoWoS模块和封装基板能带来产量提升,这可能是一个关键因素。需要注意的是,其封装技术将采用CoWoS - L而非CoWoS - S。这是一个重要的决定。CoWoS - S的成熟度和产能优势曾是采用单芯片B300A的原因。这种转变表明CoWoS - L已经迅速成熟,与最初的不稳定状态相比,其产量已经稳定下来。
这16个GPU将通过NVLink协议进行通信,并且与B200 HGX一样,在两排SXM模块之间会有两个NVSwitch 5.0 ASIC芯片。
最后,有一个新细节是,与前几代HGX不同,B300 NVL16将不会配备Astera Labs的重新定时器(re-timers)。不过,一些超大规模数据中心运营商会选择安装PCIe交换机。这是我们今年早些时候向核心研究订阅用户透露的消息。
B300的另一个重要细节是,它将引入CX-8网络接口卡(NIC),该网卡提供4个200G通道,以实现InfiniBand总共800G的总吞吐量,与当前的Blackwell CX - 7 NIC相比,网络速度实现了代际翻倍。
Rubin 规格说明
重申一下主要规格:GB300不会以板卡形式出售,而是作为带有Grace CPU的可插拔SXM模块上的B300 GPU出售,同时也会以可插拔的球栅阵列(BGA)形式提供。从性能方面来看,与B200等效产品相比,B300的FP4浮点运算次数(FLOPs)密度提高了50%以上。内存容量升级到每个封装288GB(8堆叠12 - Hi HBM3E),但带宽仍为8TB/s 。


Rubin 将在台积电(TSMC)3纳米工艺上采用两个光罩尺寸(reticle-size)的计算芯片(compute dies)。这些计算芯片两侧将各有一个输入/输出(I/O)单元(I/O tiles),其中包含用于NVLink、PCIe以及NVLink C2C知识产权(IP)的所有串行器/反串行器(SerDes),从而为主芯片腾出更多空间用于计算。
Rubin 将提供高达50 PFLOPs(每秒千万亿次浮点运算)的密集FP4计算能力,与B300相比,代际性能提升超过三倍。Rubin 是如何实现这一点的呢?英伟达在几个重要方面进行了扩展:
如上文所述,I/O芯片释放了一定的面积,可能释放出20% - 30%的面积,这些面积可用于增加更多的流式多处理器(streaming multiprocessors)和张量核心(tensor cores)。
Rubin 将采用3纳米工艺制造,使用英伟达定制的3NP工艺或者标准的N3P工艺。从布莱克韦尔(Blackwell)一代的3NP工艺到下一代4NP工艺,逻辑密度会有大幅提升,但静态随机存取存储器(SRAM)几乎没有缩小。
此外,Rubin 的热设计功耗(TDP)将会更高——我们估计为1800瓦,这甚至可能使时钟频率进一步提高。
接下来是架构扩展方面。英伟达在每一代产品中都会为张量核心使用逐渐增大的脉动阵列(systolic arrays)。我们认为,从 Hopper 一代的32×32阵列增大到 Blackwell 一代的64×64阵列。对于 Rubin,这个阵列可能会增大到128×128。更大的脉动阵列能够实现更好的数据复用并且降低控制复杂度。它们通常在面积和功耗方面更高效。不过,对它们进行编程更具挑战性,这也是英伟达没有像谷歌在张量处理单元(TPU)上那样做到256×256规模的原因。而且,这也不利于制造良率。英伟达对于光罩尺寸的单片芯片有非常高的参数良率,因为其架构中内置了冗余性和可修复性,其中包含许多较小的计算单元。有缺陷的计算单元可以被禁用,从而实现良率提升。这与TPU不同,TPU的张量核心数量较少但尺寸非常大,不具备修复有缺陷逻辑单元的相同能力。

Rubin将再次采用与GB200/300 NVL72相同的 Oberon 机架架构。它将与 Vera CPU搭配使用,Vera 是 Grace 的3纳米制程继任者。需要注意的是,Vera 将采用英伟达完全自主设计的CPU核心。Grace 在很大程度上依赖于Arm的Neoverse V2核心。英伟达还拥有一种定制的总线架构,使得单个CPU核心在需要时能够访问更多的内存带宽,而AMD和英特尔的CPU在这方面存在重大挑战。
这就是新命名方式出现的地方。尽管新的机架有72个GPU封装,但它将被命名为VR200 NVL144,其中有144个计算芯片(72个封装×每个封装2个计算芯片)。英伟达真是一家富有创新精神的公司,他们甚至改变了我们计算GPU的方式!
AMD的市场营销团队应该注意到这一点。AMD没有宣称MI300X系列可以扩展到64个GPU的世界规模(每个系统8个封装×每个封装8个XCD小芯片),这是在性能宣传上没有做到位,错失了一个关键机会。
Lisa,请不要这样……
英伟达的高带宽内存(HBM)容量将保持不变,每代均为288GB,但将升级到HBM4:8堆叠,每堆叠12层Hi(高带宽内存层),每层的存储密度仍为24GB。过渡到HBM4将带来带宽的提升,总带宽达到13TB/s,这主要得益于总线宽度加倍至2048位,引脚速度为6.4Gbps,这是当前JEDEC标准的上限。

它将采用第六代NVLink,速度加倍至3.6TB/s(双向)。这将通过加倍通道数量来实现,英伟达将继续使用224G SerDes(串行器/反串行器)。
再回到 Oberon 方面,背板将采用相同的铜质背板,但我们认为,随着每个GPU的通道数量加倍,电缆数量也会相应加倍。
在NVSwitch方面,NVSwitch ASIC(专用集成电路)的总带宽也将通过加倍通道数量的方式实现加倍。
Rubin Ultra 规格说明
Rubin Ultra才是性能真正大幅提升的地方。英伟达将直接从每个封装8层HBM(高带宽内存)跃升至16层。将有一排4个光罩尺寸(reticle-sized)的GPU,两侧各有一个I/O小芯片(I/O chiplet)。计算面积翻倍后,计算能力也将翻倍,达到100 PFLOPs(每秒千万亿次浮点运算)的密集FP4(4位浮点数)计算能力。HBM容量将增加到1024GB,超过普通Rubin容量的3.5倍以上。虽然层数翻倍了,但内存密度和层数也增加了。为了在单个封装中实现1TB的内存容量,将采用16层HBM4E,每层为32Gb的DRAM核心芯片。
我们认为,这个封装将通过在基板上使用两个中介层(interposers)来实现,以避免使用单个非常大的中介层(几乎是8倍光罩尺寸)。中间的2个GPU芯片将通过一个带有D2D(芯片到芯片)接口的薄I/O芯片相互通信,并且通信将通过基板进行。这将需要一个非常大的ABF(先进封装基板)基板,其尺寸超出了当前JEDEC封装尺寸限制(宽度和高度均为120mm)。
该系统总共拥有365TB的快速内存,其中包括147TB的HBM和218TB的第二层级LPDDR(低功耗双倍数据速率内存)。每个Vera CPU拥有1.2TB的LPDDR,总计172TB(共144个CPU),这使得每个GPU封装大约有300GB的LPDDR来补足剩余部分。这是定制HBM基础芯片功能的一种实现方式。LPDDR内存控制器被放置在基础芯片上,以增加这一额外的第二层级内存,这些内存位于板上封装的旁边,采用LPCAMM(低功耗内存模块)模块形式。这是除了Vera CPU所带来的第二层级内存之外的补充。
这也是Kyber机架架构(Kyber Rack Architecture)将亮相的时候。
Kyber机架架构
其主要新特性之一是Kyber机架架构。英伟达通过将机架旋转90度来提高密度,从而实现更高的机架密度。考虑到NVL576(144个GPU封装)的配置,这对于更大规模扩展的世界规模(world size)而言是又一次令人惊叹的密度提升。

让我们来看看Oberon机架架构与Kyber机架架构之间的主要区别:

计算托盘(compute trays)旋转90度成为盒式(cartridges)外形规格,以实现更高的机架密度。
每个机架包含4个筒(canisters),每个筒包含两层共18个计算盒式单元(compute cartridges)。
对于NVL576配置,每个计算盒式单元中有一个R300 GPU和一个Vera CPU。每个筒将有总共36个R300 GPU和36个Vera CPU。这使得NVLink的世界规模(world size)达到144个GPU(576个芯片)。
印刷电路板(PCB)背板取代铜缆背板,成为机架内GPU与NVSwitch之间的扩展连接方式。这种转变主要是由于在更小的空间内布线变得更加困难。

有趣的是,供应链中有迹象表明存在一种VR300 NVL1,152(288个GPU封装)的Kyber机架变体(如果您计算一下上面在GTC主题演讲中展示的晶圆,您会看到突出显示为红色的288个GPU封装)。我们认为这可能是正在开发中的一个潜在库存保有单位(SKU),它将使机架密度以及NVLink的世界规模从2025年GTC上展示的NVL576(144个GPU封装)翻倍到未来的NVL1,152(288个封装)。
还将有一个新的NVSwitch第7代产品,这一点值得关注。这是NVSwitch首次在平台中间设置新功能。这使得交换机的聚合带宽和基数得以增加,从而能够在单个域内扩展到576个GPU芯片(144个封装),尽管拓扑结构可能不再是全互联的非阻塞单层多平面拓扑结构。相反,它可能是一个经过多平面轨道优化的双层网络拓扑结构,可能带有超订(oversubscription)或者甚至是一种非闭合(non clos)拓扑结构 。
Blackwell Ultra改进的指数硬件单元
所有类型的注意力机制,如闪存注意力(flash-attention)、MLA、MQA和GQA,都需要矩阵乘法(matmuls)和softmax函数(逐行归约和逐元素指数函数)。矩阵乘法被称为GEMM,即通用矩阵乘法(General Matrix multiplication),仅适用于神经网络计算的矩阵乘法部分。
在GPU中,GEMM在张量核心(tensor core)上执行。张量核心每一代的运算速度都在加快,但专注于逐元素指数计算(softmax)的多功能单元(MUFU)的性能每一代并没有太大提升。
在bf16(bfloat16)架构的Hopper上,计算注意力层中的softmax需要占用GEMM周期的50%。这就要求内核工程师进行重叠(overlapping)操作来“隐藏”softmax的延迟,这使得编写内核变得很有挑战性。

在FP8(浮点数)架构的Hopper上,计算注意力层中的softmax所消耗的周期数与GEMM完全相同。这意味着如果完全不进行重叠操作,注意力层的计算时间将会翻倍。大约需要1536个周期来计算矩阵乘法,然后再用1536个周期来计算softmax。在这种情况下,重叠操作可以提高吞吐量。由于softmax和GEMM消耗的周期数相同,内核工程师需要优化出一个完美的重叠内核。但实际情况是,不可能做到完美的重叠,由于阿姆达尔定律(Amdahl’s law),硬件性能会受到影响。
到目前为止我们所描述的挑战是在Hopper架构的GPU中出现的。这个问题在Blackwell的第一轮产品中也存在。英伟达通过Blackwell Ultra解决了这个问题,他们对流式多处理器(SM)进行了重新设计,并添加了指令来改善这种情况。
在Blackwell Ultra上,用于计算注意力机制中softmax部分的MUFU单元相比标准Blackwell提升了2.5倍。这将减少为了隐藏softmax计算与GEMM计算重叠所需的完美重叠操作的要求。MUFU速度提升2.5倍后,CUDA开发者在不损失注意力内核性能的情况下,对重叠操作的容错率更高。

这就是英伟达新的推理栈(Inference Stack)和Dynamo发挥作用的地方。
推理栈和Dynamo
在去年的GTC大会上,英伟达讨论了GB200 NVL72更大的72 - GPU扩展世界规模(scale - up world size),使其与H200相比,在FP8(浮点数)下能够实现推理吞吐量(inference throughput)提升15倍。

英伟达并没有放慢脚步。它正在加速推理吞吐量的提升——这一次通过在硬件和软件领域的新发布从多个方面进行。
Blackwell Ultra GB300 NVL72相比GB200 NVL72,其FP4密集型PFLOPs(每秒千万亿次浮点运算)提高了50%,HBM(高带宽内存)容量也提升了50%——这两者都将提高推理吞吐量。路线图包括在Rubin代中对网络速度进行多次升级,这也将显著提高推理吞吐量。
从硬件方面来看,推理吞吐量的下一次飞跃将随着Rubin Ultra中扩展网络世界规模从Rubin的144个GPU芯片(GPU dies)扩展到576个GPU芯片而到来。而这仅仅是硬件方面的改进。
在软件方面,英伟达宣布了Nvidia Dynamo——一个开放的AI引擎栈,专注于让部署和扩展推理变得更加容易。它有可能颠覆VLLM和SGLang——提供VLLM所没有的多项功能,并且性能更高。结合硬件层面的创新,Dynamo将在吞吐量与交互性(throughput vs interactivity)曲线上进一步向右移动——特别是提高交互性更强用例的吞吐量。

Dynamo带来了当前推理栈所没有的一些关键特性:
智能路由器(Smart Router)
GPU规划器(GPU Planner)
用于推理的改进型NCCL(NVIDIA Collective Communications Library)集体操作(Collective)
NIXL——英伟达推理传输引擎(NVIDIA Inference Transfer Engine)
NVMe KV - 缓存卸载管理器(NVMe KV - Cache Offload Manager)
智能路由器(Smart Router)
智能路由器能够智能地将多GPU推理部署中的每个 token 路由到预填充(prefill)和解析(decode)GPU。对于预填充阶段,这意味着要确保传入的 token 均匀分配到负责预填充的不同GPU上,以避免预填充阶段任何特定专家(expert)出现瓶颈。
同样,在解析阶段,确保序列长度和请求在负责解析的GPU之间得到良好的分配和平衡也很重要。GPU规划器(GPU Planner)还可以复制一些流量较大的专家,以帮助保持负载平衡。
该路由器还能在为模型服务的每个副本之间进行负载均衡,这是vLLM和许多其他推理引擎所不支持的。

GPU规划器(GPU Planner)
GPU规划器是预填充和解析节点的自动扩展器,能够根据一天中自然出现的需求数量波动启动额外的节点。它可以在预填充和解析节点中的MoE(专家混合)模型的众多专家之间实现一定程度的负载均衡。GPU规划器会启动额外的GPU,为高负载专家提供额外的计算资源。它还可以根据需要在预填充和解析节点之间动态重新分配节点,从而进一步最大化资源利用率。
此外,它还支持改变用于解析和预填充的GPU比例——这对于像深度研究(Deep Research)这样的应用场景特别有用,因为这类应用需要更多的预填充而不是解析,因为它们需要回顾大量的上下文信息,但只生成相对较少的内容。

用于推理的改进型NCCL集体操作(Improved NCCL Collective for Inference)
低延迟通信库是英伟达集体通信库(NCCL)中的一组新算法,能够将较小消息大小的延迟降低4倍——从而总体上显著提高推理吞吐量。
Sylvain在今年GTC大会上的演讲详细介绍了这些新增内容——概述了一次性(one-shot)和两次性(two-shot)全归约(all-reduce)算法,这些算法实现了这一改进。
由于AMD的RCCL库是英伟达NCCL库的完全复制分支,Sylvain对NCCL的重构将继续扩大CUDA的护城河,并导致AMD的RCCL需要花费数千个工程小时来同步英伟达的重大重构。当AMD花费数千个工程小时来同步英伟达的更改时,英伟达将利用这段时间继续推进集体通信软件栈和算法的前沿。

要从预填充(prefill)节点传输到解析(decode)节点,需要低延迟、高带宽的通信传输库。NIXL将使用InfiniBand GPU异步初始化(IBGDA)。目前在NCCL中,控制流通过CPU代理线程,而数据流直接到达网络接口卡(NIC),无需经过CPU缓冲。但使用IBGDA时,控制流和数据流都不需要经过CPU,而是直接从GPU到达NIC。
NIXL还将抽象化在CXL、本地NVMe、远程NVMe、CPU内存、远程GPU内存以及GPU之间发送和接收数据移动的复杂性。

NVMe KV - 缓存卸载管理器(NVMe KVCache Offload Manager)
KV - 缓存卸载管理器通过将先前用户对话中的KVCache保存到NVMe存储中而不是丢弃它,从而使预填充(prefill)的整体执行更高效。

当用户与大型语言模型(LLM)进行持续的多轮响应对话时,LLM需要考虑对话中较早的问题和回答,并将其作为输入 token。在简单的实现中,推理系统会丢弃最初用于生成那些较早问题和回答的KVCache,这意味着必须重新计算KVCache,重复相同的计算集。
相反,通过NVMe KVCache卸载,当用户暂时离开时,KVCache可以被卸载到NVMe存储系统中,直到用户返回对话。当用户在对话中提出后续问题时,可以从NVMe存储系统中快速检索KVCache,无需再次计算KVCache。
这释放了预填充节点的容量以处理更多的传入流量,或者可以减小预填充部署所需的规模。由于检索KVCache比计算它所需的时间大大减少,用户也将获得更好的体验,即首次 token 的时间更快。

在DeepSeek的Day 6 GitHub笔记中,研究人员披露了磁盘上KVCache的命中率为56.3%,这意味着他们的预填充部署效率有了显著提高。我们了解到,在这种类型的部署中,当用户进行多轮对话时,典型的KVCache命中率可能在50 - 60%之间。部署这种NVMe存储解决方案是有成本的,因此存在一个临界点,即当对话足够短时,重新计算比重新加载更容易且更便宜,但在其他情况下节省巨大。
任何关注DeepSeek开源周(Open Source Week)的人都会非常熟悉上述所有技术。上述链接可以说是快速了解更多相关信息的最佳途径,而此时英伟达正在为Dynamo整理更多文档。
所有这些特性的结果是全面显著提升了推理速度。英伟达甚至讨论了在现有H100节点上部署Dynamo时的改进情况。本质上,Dynamo使DeepSeek的创新成果普及化,让社区中的每个人都能使用开源模型技术所提供的最佳资源。这使得不仅仅是拥有深度推理部署工程团队的顶级人工智能实验室,而是所有人都能部署高效的推理系统。
最后,由于Dynamo广泛处理分散式推理(disaggregated inference)和专家并行性(expert parallelism),它对单个复制(individual replication)和更高交互性(higher interactivity)的部署特别有帮助。当然,拥有许多节点是Dynamo充分发挥其能力并带来有意义改进的前提条件。

人工智能总拥有成本(AI Total Cost of Ownership)——成本下降
在结束关于Blackwell的讨论后不久,黄仁勋进一步强调了他的观点,他谈到这些创新成果使他成为了“首席营收破坏者(Chief revenue destroyer)”。他进一步指出,Blackwell相较于Hopper,性能提升了高达68倍,从而导致成本下降了87%。而Rubin预计将带来更大的性能提升——相比Hopper性能提升900倍,成本降低99.97%。
显然,英伟达正在追求一种不懈的改进速度——正如黄仁勋所说:“当Blackwell开始大规模出货时,你甚至都没法把Hopper送出去了。”

我们一段时间以来也一直在宣扬类似的理念——强调在产品周期早期而非后期部署计算资源的重要性。在去年10月发布的《AI Neocloud Playbook》中,我们解释了这种动态正是2024年中期H100租赁价格加速下降的驱动因素之一。很长时间以来,我们一直在敦促整个生态系统优先部署像B200和GB200 NVL72这样的下一代系统,而不是购买H100或H200。
订阅了我们的人工智能云总拥有成本(TCO)模型的客户已经熟悉了我们所预期的代际之间的生产力跃升,以及这将如何推动这些芯片的AI Neocloud租赁价格,最终影响芯片所有者能够获得的净现值。
实际上,我们的H100租赁价格预测框架正是基于黄仁勋所阐述的原理运作的。我们结合对未来安装基础、集群总拥有成本以及未来芯片能力的估算来构建预测价格曲线。到目前为止,该框架具有很强的指导意义。我们于2024年4月首次向客户发布了H100租赁价格预测模型——从2024年初至今,该模型对H100租赁价格的预测准确率达到了98%。

共封装光学器件(CPO)插入
在主题演讲中,英伟达宣布了其首个将用于扩展(scale - out)交换机的共封装光学(CPO)解决方案。借助CPO,收发器被外部激光源(ELSs)所取代,这些外部激光源与直接放置在芯片硅片旁边的光学引擎(OEs)共同实现数据通信。光纤电缆现在不再插入收发器端口,而是插入交换机上的端口,这些端口将信号直接路由到光学引擎。

CPO的主要优势在于显著降低功耗,原因有以下几点。在交换机本身方面,由于不再需要数字信号处理器(DSP),并且可以使用功率更低的激光光源,所以能节省大量能源。使用线性可插拔光学(LPO)收发器也能实现这种节省,但CPO还能使交换机的基数(radix)更大,从而使网络能够减少一层——通过使用CPO,一个集群可以通过两层网络而非使用DSP收发器时的三层网络来实现连接。这意味着可以省去一整层交换机,并享受与之相关的成本和功耗节省效益——这在功耗方面的节省几乎与收发器上的节省一样显著。

我们的分析表明,对于一个40万节点的GB200 NVL72部署,从基于DSP收发器的三层网络转换为基于CPO的两层网络,可使整个集群的功耗最多降低12%——将收发器的功耗从计算资源的10%降低到仅1%。

英伟达今天推出了多款基于CPO的交换机,其中包括量子X - 800 3400的CPO版本,该版本于2024年GTC大会上首次亮相。它具有144个800G端口,总吞吐量为115T,并将包含144个多光纤推入(MPO)端口和18个外部激光源(ELS)。这款交换机将于2025年下半年推出。具有512个800G端口的Spectrum - X交换机也很有吸引力,因为它能够在高速下实现非常大的基数,从而构建非常快速和平坦的网络拓扑结构。这款以太网CPO交换机将于2026年下半年推出。

尽管今天的发布具有开创性,但我们认为英伟达在CPO领域才刚刚起步。我们认为,从长远来看,如果CPO能应用于扩展(scale - up)网络,那将是其迄今为止最大的贡献,在这种情况下,它有可能大幅增加GPU的扩展网络基数和聚合带宽——从而构建速度更快、结构更扁平的扩展网络,并使扩展世界规模远超576个GPU成为可能。我们将在即将发表的一篇文章中深入探讨英伟达的CPO解决方案。

