

GTC25：英伟达Vera Rubin超级芯片

智能计算芯世界

2025-11-28

黄仁勋在 GTC 大会上发表主题演讲，不仅展示了下一代超级芯片 Vera Rubin 的原型机，更提出了“AI 不是工具，而是会用工具的工人”这一颠覆性观点。

本文来自“《英伟达GTC25：发布Vera Rubin Superchip》”，本文所有资料都已上传至“智能计算芯知识”星球。

NVIDIA 从 Tesla、Fermi 向 Vera Rubin 迭代升级

在 GPU 架构的早期演进中，NVIDIA 通过 Tesla、Fermi、Kepler、Maxwell 四大系列，实现了 GPU 从“图形加速专用硬件”到“通用并行计算引擎”的关键技术跃迁。

2010 年之前，NVIDIA 凭借Tesla 架构迈出了里程碑式的一步 —— 这一架构的诞生，正式推动 GPU 完成了从传统图形加速到通用计算的跨越式转型，为后续技术革新奠定了核心基础。

进入 2010 年，Fermi 架构聚焦可靠性与通用性的双重升级：不仅首次引入 ECC（错误校验码）内存，从硬件层面保障了数据计算的精准性，解决了通用计算场景下的关键痛点；更对 CUDA 核心进行深度优化，打破了编程语言的适配局限，让 GPU 能兼容更多开发工具，进一步拓宽了通用计算的应用边界。

2012 年登场的Kepler 架构，以 “能效比革命” 为核心突破方向。其创新推出的 SMX 流式多处理器，大幅提升了 GPU 的并行计算效率；同时，该架构首次支持 GPUDirect 技术，实现了 GPU 与 GPU 之间、GPU 与存储设备之间的直接数据传输，彻底摆脱了 CPU 中转的性能瓶颈，数据交互效率实现质的飞跃。

时间来到 2014 年，伴随移动设备的全面兴起，市场对低功耗、高性能 GPU 的需求呈爆发式增长。NVIDIA 顺势推出Maxwell 架构，该架构采用台积电 28nm 工艺制程，针对移动端、桌面端等不同应用场景进行了精准的适配优化，既满足了高性能计算需求，又实现了功耗的有效控制，完美契合了当时的市场发展趋势。

随着人工智能与高性能计算需求的持续爆发，2016 年成为 NVIDIA 架构迭代的加速起点 —— 此后，其不仅密集推出 Volta、Hopper、Blackwell 等一系列突破性架构，通过技术革新不断定义算力标准，计划以下一代架构持续突破算力边界。

2016 年问世的Volta 架构，以一项颠覆性创新改写了 AI 算力格局：其首创的 TensorCore 技术，首次实现 AI 算力的硬件级加速，彻底摆脱了传统通用计算核心支撑 AI 运算的效率瓶颈。这一技术不仅让深度学习模型的训练与推理速度大幅提升，更直接推动 AI 算力商业化时代的到来，为图像识别、自然语言处理等深度学习应用的大规模落地提供了关键算力支撑。

时间来到 2022 年，面对大模型研发热潮下 “千亿级参数” 的算力需求，Hopper 架构精准聚焦核心痛点：其搭载的 Transformer Engine，针对大模型核心的 Transformer 层进行深度优化，通过硬件级的混合精度计算能力，有效降低千亿参数模型的训练成本、缩短研发周期，为大模型从 “概念探索” 走向 “产业应用” 夯实了算力基础，成为 AI 大模型发展的重要推手。

2024 年发布的Blackwell 架构，则实现了从 “单一芯片优化” 到 “全栈协同创新” 的跨越：通过 “芯片、系统、软件” 的深度协同设计，该架构在两大核心领域实现双重跃升 —— 在 AI 推理领域，凭借优化的计算单元与内存架构，推理效率较前代大幅提升，满足实时 AI 服务的高并发需求；在图形渲染领域，通过全新的渲染管线设计，进一步突破画质与帧率上限，兼顾 AI 计算与专业图形处理的双重需求，成为应对复杂计算场景的全能型架构。

而 NVIDIA 计划推出的下一代架构，将进一步突破算力密度与能效比的极限，为超大规模 AI 集群、量子计算协同模拟等复杂场景提供底层技术支撑。

NVIDIA Vera Rubin 超级芯片以异构协同与架构创新实现算力跃升

伴随“摩尔定律”逐步逼近物理极限，晶体管密度提升对算力的边际贡献持续走低。为突破这一瓶颈，NVIDIA 于 2025 年 10 月 29 日推出 Vera Rubin 超级芯片。该超级芯片并未单纯堆积晶体管，而是通过 CPU 与 GPU 的异构协同、HBM4 高带宽显存的搭配，以及 CUDA 生态的兼容，以架构与系统级创新实现算力跃升。

每块 Rubin GPU 被大量电源电路环绕，配备 8 个 HBM4（HBM4 高宽带显存）显存位点，集成两颗 Reticle 尺寸（半导体光刻机掩模版的最大制造尺寸）GPU 芯片；VeraCPU 搭载 88 个定制 ARM 核心，总计提供 176 个线程。

从性能迭代视角来看，NVIDIA 芯片架构正沿着 Hopper、Blackwell 到 Rubin 的路径持续演进。其中，作为当前旗舰产品的Vera Rubin 超级芯片，其搭载的 VR200、VR300（Ultra）两款加速器，在 FP4 算力上分别达到 50 PFLOPS 与 100 PFLOPS；显存配置更是实现突破，提供 288 GB HBM4 乃至 1025 GB HBM4E 两种选择，显存带宽最高可达 32 TB/s—— 相较于前代 Blackwell 架构，这些核心性能指标均实现了数倍的跨越式提升。

与此同时，NVIDIA CPU 也完成了从 Grace 系列到 Vera 系列的升级。核心性能与线程数的双重强化，进一步为异构协同计算场景提供了更强劲的支撑，助力整体算力实现更高效的释放。

2026-2027 H2 计划推出 Vera Rubin 平台

针对新一代计算平台，黄仁勋宣布，公司预计于 2026 年 H2 推出 Vera Rubin NVL144 平台，并计划在 2027 年 H2 进一步推出 Rubin Ultra NVL576 平台。

Vera Rubin NVL144 平台的核心硬件采用 Rubin GPU 与 Vera CPU 的组合设计。

其中，Rubin GPU 由两颗 Reticle 尺寸核心构成，不仅具备 50 PFLOPS（FP4 精度）的算力，还配备 288 GB HBM4 显存；Vera CPU 则提供 88 个定制 Arm 核心与 176线程，其 NVLINK-C2C 互联带宽可达到 1.8 TB/s。

性能层面，Vera Rubin NVL144 平台相较上一代 GB300 NVL72 实现持续提升。

其中，该平台的 FP4 推理算力达 3.6 Exaflops、FP8 训练算力达 1.2Exaflops，较GB300 NVL72 提升约 3.3 倍；系统总显存带宽为 13 TB/s，快速存储容量为 75 TB，两项指标较上一代分别提升 60%。此外，该平台的 NVLINK 与 CX9 通信能力也实现双倍提升，最高速率分别可达 260 TB/s 与 28.8 TB/s。

Rubin Ultra NVL576 平台作为更高规格的迭代产品，在硬件与性能上均实现全面升级。

1）其 NVL 规模从 144 扩展至 576，CPU 架构保持不变，GPU 则升级为四颗Reticle 尺寸核心；单颗 GPU 性能最高可达 100 PFLOPS（FP4 精度），并搭载 1TBHBM4e 显存。

2）性能层面，该平台可实现 15 Exaflops（FP4 推理）与 5 Exaflops（FP8 训练）算力，相较上一代 GB300 NVL72 提升 14 倍，同时 HBM4 显存带宽达到 4.6 PB/s、快速存储容量达 365 TB；通信能力上，NVLINK 与 CX9 分别提升至12 倍与 8 倍，最高速率依次达到 1.5 PB/s 与 115.2 TB/s，整体算力、存储与连接效率均大幅跃升。