大数跨境

中金 | GTC 2026:推理时代已至,再绘AI硬件宏伟蓝图

中金 | GTC 2026:推理时代已至,再绘AI硬件宏伟蓝图 中金点睛
2026-03-19
5
导读:我们认为这一变化对AI算力芯片行业及产业链发展影响深远,其他厂商也有望推出更多专用化、解耦化、异构化的推理产品。

中金研究

GTC 2026:AI推理进入算力拐点,系统级平台时代开启

NVIDIA在GTC 2026大会上明确指出,AI推理正进入“算力拐点”(Inference Inflection Point)。受模型参数规模扩大、上下文长度持续增长及tokens生成量激增驱动,未来三年推理所需算力有望达ChatGPT初始版本的10,000倍,行业需求正加速从“训练主导”向“推理驱动”范式转变。NVIDIA预测,其数据中心业务收入将由2025–2026年的5,000亿美元跃升至2026–2027年的超1万亿美元。

为应对这一趋势,NVIDIA已全面转向“整柜级”系统架构,发布Vera Rubin平台,并首次整合Groq 3 LPU推理加速器、BlueField-4 STX服务器及正交背板等创新组件,构建覆盖预填充(Prefill)、注意力(Attention)与FFN/MoE解码的全栈协同方案。

芯片及存储:硬件异构升级,推理任务导向明晰

Vera Rubin平台:72 GPU + 36 CPU + NVLink 6 + CX9 + BF4 DPU

Vera Rubin核心机柜采用“72 GPU + 36 CPU + NVLink 6 + CX9 + BlueField-4 DPU”配置,系统级能效提升4倍,推理吞吐/瓦最高提升10倍,单位成本降至Blackwell时代的十分之一。该平台已于2026年全面投产,预计下半年开始交付。

Rubin Ultra机柜面向超大规模部署,支持144 GPU(576 die)、单机柜1.5PB/s互联带宽、双层Canister架构及正交背板+光互联,功耗约600kW,预计2027年下半年量产,属Kyber体系,强化CPO与scale-up演进路径。

BlueField-4 STX:构建AI内存池化调度系统

BlueField-4 STX服务器(CX9 + Vera CPU + BF4 DPU)旨在打造面向大模型推理的超高速共享缓存层。Vera CPU提供高单线程性能与内存带宽,负责数据调度;BF4 DPU专注协议卸载与安全隔离;ConnectX-9 SuperNIC支撑高吞吐网络。三者协同,将分散GPU显存与NVMe存储虚拟化为统一、低延迟、高带宽的KV缓存池,突破单卡内存容量瓶颈。

Vera CPU Tray:88核Arm架构,实现一致性内存互联

Vera CPU采用88个定制Olympus核心与空间多线程技术,支持176线程;SOCAMM模块化LPDDR5X内存容量最高达1.5TB,单芯片内存带宽1.2TB/s;通过1.8TB/s NVLink‑C2C与GPU实现一致性内存互联。

Groq 3 LPX:专为低时延Decode设计的LPU机架

Groq 3 LPX聚焦Decode阶段中FFN/MoE执行,强调确定性时延与超高片上带宽:单颗集成500MB SRAM、150TB/s带宽,支持FP8推理;LPX机架共部署256颗LPU(32个1U compute tray,每tray 8颗),总SRAM 128GB、总带宽40PB/s、scale-up带宽640TB/s,并配备12TB DDR5作为容量补充层。

LPX内部互联采用三级C2C架构:Tray内直连、Tray间经spine连接、跨rack扩展支持;与Vera Rubin机柜之间暂通过Spectrum-X以太网互联,转发由BlueField-4 DPU完成。未来有望通过NVLink Fusion Chiplet形式接入GPU高速域。

新组合系统策略:负载拆分,异构协同

Vera Rubin与Groq 3 LPX形成明确分工:Rubin负责Prefill与Attention计算,LPX专注FFN/MoE低时延Decode。该设计基于推理瓶颈特性差异——Attention为访存密集型,依赖大容量KV Cache与HBM带宽;FFN则计算密集、参数占比超60%,更易成为吞吐瓶颈。

黄仁勋指出:“token就是收入”。联合架构相比Blackwell平台,可实现每瓦吞吐量提升35倍、万亿参数模型收入潜力提升10倍,Rubin单平台亦可将推理token成本降至Blackwell的1/10。

PCB:算力互联重构驱动量价齐升

GTC 2026标志着AI基础设施由“单卡性能”迈向“系统级海量互联”。Rubin无线缆架构、Groq LPU纯SRAM节点拓展、Rubin Ultra正交背板导入,共同推动PCB用量增加、层数提升、材料升级(M9/PTFE混压等)。我们预计2026/2027年AI PCB市场规模达121.03/224.64亿美元,同比增长116%/86%。

Rubin无线缆架构:连接器替代线缆,规格全面升级

Rubin托盘采用全盲插、无线缆设计,电源、液冷管路、NVLink信号均通过后方浮动盲插连接器与背板对接,组装时间由2小时缩短至5分钟。VR200 NVL72单机柜PCB价值量约29.1万元,单GPU对应价值量4050元(563美元),较GB300提升36%。

主要构成包括: 1)Bianca主板(承载2颗Rubin GPU + Vera CPU):M8 6阶HDI,约13万元; 2)Midplane(新增):M8/M9 40L+高多层板,约5.4万元; 3)CX-9网卡板(8块/托盘):M7/M8 20L+,单柜约3.6万元; 4)Switch Tray(9个):M8/M9 30+L高多层板,单柜约6.5万元; 5)其他(BF4、PDB等):约0.7万元。

Groq LPU集群:高密度节点拉动PCB新增量

单LPX机柜含32个1U托盘、256颗LPU,需应对高频SRAM读写与大电流供电,预计采用M9 50+L高多层板,单LPU对应PCB价值量约200美元;机柜配套比约为Rubin计算柜:LPX=8:5。

正交背板:替代数千根铜缆,价值量突破

为适配NVL144(Kyber架构)高密度托盘,正交背板取代传统线缆,大幅缩短信号路径、减少连接器数量,提升传输速率与良率。预计采用M9/PTFE混压、3/4次20+层高多层板,单板价值量3–4万美元,单柜约12–16万美元,单GPU折合约500美元。

光互联:Scale-up CPO趋势明确,打开增量空间

Spectrum-X CPO交换机全面量产

NVIDIA联合台积电实现搭载CPO技术的Spectrum-X以太网交换机量产。光引擎与交换ASIC共封装于同一基板,电信号走线缩短至毫米级,显著降低SerDes功耗与信号衰减,为智算中心突破“功耗墙”与“空间墙”提供底层工程解法。

CPO渗透Scale-up网络路径清晰

Rubin Ultra 576架构采用光铜混合互联:柜内用铜互连,跨柜扩展(如8柜组成576节点)则依托Spectrum-6 CPO交换机(102.4Tb/s);下一代Feynman平台将在Switch Tray直接集成NVLink 8 CPO交换芯片,印证光互联从柜外向柜内加速渗透的趋势。CPO有望成为scale-up网络超高密度、超低功耗互联的关键路径。

风险提示

AI算力硬件降本不及预期;大模型技术发展迭代不及预期。

【声明】内容源于网络
0
0
中金点睛
图文并茂讲解中金深度研究报告
内容 8269
粉丝 0
中金点睛 图文并茂讲解中金深度研究报告
总阅读78.0k
粉丝0
内容8.3k