中金 | GTC 2026：推理时代已至，再绘AI硬件宏伟蓝图- 大数跨境

首页

中金 | GTC 2026：推理时代已至，再绘AI硬件宏伟蓝图

中金点睛

2026-03-19

导读：我们认为这一变化对AI算力芯片行业及产业链发展影响深远，其他厂商也有望推出更多专用化、解耦化、异构化的推理产品。

中金研究

GTC 2026：AI推理进入算力拐点，系统级平台时代开启

NVIDIA在GTC 2026大会上明确指出，AI推理正进入“算力拐点”（Inference Inflection Point）。受模型参数规模扩大、上下文长度持续增长及tokens生成量激增驱动，未来三年推理所需算力有望达ChatGPT初始版本的10,000倍，行业需求正加速从“训练主导”向“推理驱动”范式转变。NVIDIA预测，其数据中心业务收入将由2025–2026年的5,000亿美元跃升至2026–2027年的超1万亿美元。

为应对这一趋势，NVIDIA已全面转向“整柜级”系统架构，发布Vera Rubin平台，并首次整合Groq 3 LPU推理加速器、BlueField-4 STX服务器及正交背板等创新组件，构建覆盖预填充（Prefill）、注意力（Attention）与FFN/MoE解码的全栈协同方案。

芯片及存储：硬件异构升级，推理任务导向明晰

Vera Rubin平台：72 GPU + 36 CPU + NVLink 6 + CX9 + BF4 DPU

Vera Rubin核心机柜采用“72 GPU + 36 CPU + NVLink 6 + CX9 + BlueField-4 DPU”配置，系统级能效提升4倍，推理吞吐/瓦最高提升10倍，单位成本降至Blackwell时代的十分之一。该平台已于2026年全面投产，预计下半年开始交付。

Rubin Ultra机柜面向超大规模部署，支持144 GPU（576 die）、单机柜1.5PB/s互联带宽、双层Canister架构及正交背板+光互联，功耗约600kW，预计2027年下半年量产，属Kyber体系，强化CPO与scale-up演进路径。

BlueField-4 STX：构建AI内存池化调度系统

BlueField-4 STX服务器（CX9 + Vera CPU + BF4 DPU）旨在打造面向大模型推理的超高速共享缓存层。Vera CPU提供高单线程性能与内存带宽，负责数据调度；BF4 DPU专注协议卸载与安全隔离；ConnectX-9 SuperNIC支撑高吞吐网络。三者协同，将分散GPU显存与NVMe存储虚拟化为统一、低延迟、高带宽的KV缓存池，突破单卡内存容量瓶颈。

Vera CPU Tray：88核Arm架构，实现一致性内存互联

Vera CPU采用88个定制Olympus核心与空间多线程技术，支持176线程；SOCAMM模块化LPDDR5X内存容量最高达1.5TB，单芯片内存带宽1.2TB/s；通过1.8TB/s NVLink‑C2C与GPU实现一致性内存互联。

Groq 3 LPX：专为低时延Decode设计的LPU机架

Groq 3 LPX聚焦Decode阶段中FFN/MoE执行，强调确定性时延与超高片上带宽：单颗集成500MB SRAM、150TB/s带宽，支持FP8推理；LPX机架共部署256颗LPU（32个1U compute tray，每tray 8颗），总SRAM 128GB、总带宽40PB/s、scale-up带宽640TB/s，并配备12TB DDR5作为容量补充层。

LPX内部互联采用三级C2C架构：Tray内直连、Tray间经spine连接、跨rack扩展支持；与Vera Rubin机柜之间暂通过Spectrum-X以太网互联，转发由BlueField-4 DPU完成。未来有望通过NVLink Fusion Chiplet形式接入GPU高速域。

新组合系统策略：负载拆分，异构协同

Vera Rubin与Groq 3 LPX形成明确分工：Rubin负责Prefill与Attention计算，LPX专注FFN/MoE低时延Decode。该设计基于推理瓶颈特性差异——Attention为访存密集型，依赖大容量KV Cache与HBM带宽；FFN则计算密集、参数占比超60%，更易成为吞吐瓶颈。

黄仁勋指出：“token就是收入”。联合架构相比Blackwell平台，可实现每瓦吞吐量提升35倍、万亿参数模型收入潜力提升10倍，Rubin单平台亦可将推理token成本降至Blackwell的1/10。

PCB：算力互联重构驱动量价齐升

GTC 2026标志着AI基础设施由“单卡性能”迈向“系统级海量互联”。Rubin无线缆架构、Groq LPU纯SRAM节点拓展、Rubin Ultra正交背板导入，共同推动PCB用量增加、层数提升、材料升级（M9/PTFE混压等）。我们预计2026/2027年AI PCB市场规模达121.03/224.64亿美元，同比增长116%/86%。

Rubin无线缆架构：连接器替代线缆，规格全面升级

Rubin托盘采用全盲插、无线缆设计，电源、液冷管路、NVLink信号均通过后方浮动盲插连接器与背板对接，组装时间由2小时缩短至5分钟。VR200 NVL72单机柜PCB价值量约29.1万元，单GPU对应价值量4050元（563美元），较GB300提升36%。

主要构成包括： 1）Bianca主板（承载2颗Rubin GPU + Vera CPU）：M8 6阶HDI，约13万元； 2）Midplane（新增）：M8/M9 40L+高多层板，约5.4万元； 3）CX-9网卡板（8块/托盘）：M7/M8 20L+，单柜约3.6万元； 4）Switch Tray（9个）：M8/M9 30+L高多层板，单柜约6.5万元； 5）其他（BF4、PDB等）：约0.7万元。

Groq LPU集群：高密度节点拉动PCB新增量

单LPX机柜含32个1U托盘、256颗LPU，需应对高频SRAM读写与大电流供电，预计采用M9 50+L高多层板，单LPU对应PCB价值量约200美元；机柜配套比约为Rubin计算柜:LPX=8:5。

正交背板：替代数千根铜缆，价值量突破

为适配NVL144（Kyber架构）高密度托盘，正交背板取代传统线缆，大幅缩短信号路径、减少连接器数量，提升传输速率与良率。预计采用M9/PTFE混压、3/4次20+层高多层板，单板价值量3–4万美元，单柜约12–16万美元，单GPU折合约500美元。

光互联：Scale-up CPO趋势明确，打开增量空间

Spectrum-X CPO交换机全面量产

NVIDIA联合台积电实现搭载CPO技术的Spectrum-X以太网交换机量产。光引擎与交换ASIC共封装于同一基板，电信号走线缩短至毫米级，显著降低SerDes功耗与信号衰减，为智算中心突破“功耗墙”与“空间墙”提供底层工程解法。

CPO渗透Scale-up网络路径清晰

Rubin Ultra 576架构采用光铜混合互联：柜内用铜互连，跨柜扩展（如8柜组成576节点）则依托Spectrum-6 CPO交换机（102.4Tb/s）；下一代Feynman平台将在Switch Tray直接集成NVLink 8 CPO交换芯片，印证光互联从柜外向柜内加速渗透的趋势。CPO有望成为scale-up网络超高密度、超低功耗互联的关键路径。

风险提示

AI算力硬件降本不及预期；大模型技术发展迭代不及预期。

【声明】内容源于网络

中金点睛

图文并茂讲解中金深度研究报告

内容 8269

粉丝 0

中金点睛图文并茂讲解中金深度研究报告

总阅读78.0k

粉丝0

内容8.3k