黄仁勋在 GTC 大会上发表主题演讲,不仅展示了下一代超级芯片 Vera Rubin 的原型机,更提出了“AI 不是工具,而是会用工具的工人”这一颠覆性观点。
本文来自“《英伟达GTC25:发布Vera Rubin Superchip》”,本文所有资料都已上传至“智能计算芯知识”星球。
NVIDIA 从 Tesla、Fermi 向 Vera Rubin 迭代升级
在 GPU 架构的早期演进中,NVIDIA 通过 Tesla、Fermi、Kepler、Maxwell 四大系列,实现了 GPU 从“图形加速专用硬件”到“通用并行计算引擎”的关键技术跃迁。
2010 年之前,NVIDIA 凭借Tesla 架构迈出了里程碑式的一步 —— 这一架构的诞生,正式推动 GPU 完成了从传统图形加速到通用计算的跨越式转型,为后续技术革新奠定了核心基础。
进入 2010 年,Fermi 架构聚焦可靠性与通用性的双重升级:不仅首次引入 ECC(错误校验码)内存,从硬件层面保障了数据计算的精准性,解决了通用计算场景下的关键痛点;更对 CUDA 核心进行深度优化,打破了编程语言的适配局限,让 GPU 能兼容更多开发工具,进一步拓宽了通用计算的应用边界。
2012 年登场的Kepler 架构,以 “能效比革命” 为核心突破方向。其创新推出的 SMX 流式多处理器,大幅提升了 GPU 的并行计算效率;同时,该架构首次支持 GPUDirect 技术,实现了 GPU 与 GPU 之间、GPU 与存储设备之间的直接数据传输,彻底摆脱了 CPU 中转的性能瓶颈,数据交互效率实现质的飞跃。
时间来到 2014 年,伴随移动设备的全面兴起,市场对低功耗、高性能 GPU 的需求呈爆发式增长。NVIDIA 顺势推出Maxwell 架构,该架构采用台积电 28nm 工艺制程,针对移动端、桌面端等不同应用场景进行了精准的适配优化,既满足了高性能计算需求,又实现了功耗的有效控制,完美契合了当时的市场发展趋势。
随着人工智能与高性能计算需求的持续爆发,2016 年成为 NVIDIA 架构迭代的加速起点 —— 此后,其不仅密集推出 Volta、Hopper、Blackwell 等一系列突破性架构,通过技术革新不断定义算力标准,计划以下一代架构持续突破算力边界。
2016 年问世的Volta 架构,以一项颠覆性创新改写了 AI 算力格局:其首创的 TensorCore 技术,首次实现 AI 算力的硬件级加速,彻底摆脱了传统通用计算核心支撑 AI 运算的效率瓶颈。这一技术不仅让深度学习模型的训练与推理速度大幅提升,更直接推动 AI 算力商业化时代的到来,为图像识别、自然语言处理等深度学习应用的大规模落地提供了关键算力支撑。
时间来到 2022 年,面对大模型研发热潮下 “千亿级参数” 的算力需求,Hopper 架构精准聚焦核心痛点:其搭载的 Transformer Engine,针对大模型核心的 Transformer 层进行深度优化,通过硬件级的混合精度计算能力,有效降低千亿参数模型的训练成本、缩短研发周期,为大模型从 “概念探索” 走向 “产业应用” 夯实了算力基础,成为 AI 大模型发展的重要推手。
2024 年发布的Blackwell 架构,则实现了从 “单一芯片优化” 到 “全栈协同创新” 的跨越:通过 “芯片、系统、软件” 的深度协同设计,该架构在两大核心领域实现双重跃升 —— 在 AI 推理领域,凭借优化的计算单元与内存架构,推理效率较前代大幅提升,满足实时 AI 服务的高并发需求;在图形渲染领域,通过全新的渲染管线设计,进一步突破画质与帧率上限,兼顾 AI 计算与专业图形处理的双重需求,成为应对复杂计算场景的全能型架构。
而 NVIDIA 计划推出的下一代架构,将进一步突破算力密度与能效比的极限,为超大规模 AI 集群、量子计算协同模拟等复杂场景提供底层技术支撑。
NVIDIA Vera Rubin 超级芯片以异构协同与架构创新实现算力跃升
伴随“摩尔定律”逐步逼近物理极限,晶体管密度提升对算力的边际贡献持续走低。为突破这一瓶颈,NVIDIA 于 2025 年 10 月 29 日推出 Vera Rubin 超级芯片。该超级芯片并未单纯堆积晶体管,而是通过 CPU 与 GPU 的异构协同、HBM4 高带宽显存的搭配,以及 CUDA 生态的兼容,以架构与系统级创新实现算力跃升。
每块 Rubin GPU 被大量电源电路环绕,配备 8 个 HBM4(HBM4 高宽带显存)显存位点,集成两颗 Reticle 尺寸(半导体光刻机掩模版的最大制造尺寸)GPU 芯片;VeraCPU 搭载 88 个定制 ARM 核心,总计提供 176 个线程。
从性能迭代视角来看,NVIDIA 芯片架构正沿着 Hopper、Blackwell 到 Rubin 的路径持续演进。其中,作为当前旗舰产品的Vera Rubin 超级芯片,其搭载的 VR200、VR300(Ultra)两款加速器,在 FP4 算力上分别达到 50 PFLOPS 与 100 PFLOPS;显存配置更是实现突破,提供 288 GB HBM4 乃至 1025 GB HBM4E 两种选择,显存带宽最高可达 32 TB/s—— 相较于前代 Blackwell 架构,这些核心性能指标均实现了数倍的跨越式提升。
与此同时,NVIDIA CPU 也完成了从 Grace 系列到 Vera 系列的升级。核心性能与线程数的双重强化,进一步为异构协同计算场景提供了更强劲的支撑,助力整体算力实现更高效的释放。
2026-2027 H2 计划推出 Vera Rubin 平台
针对新一代计算平台,黄仁勋宣布,公司预计于 2026 年 H2 推出 Vera Rubin NVL144 平台,并计划在 2027 年 H2 进一步推出 Rubin Ultra NVL576 平台。
Vera Rubin NVL144 平台的核心硬件采用 Rubin GPU 与 Vera CPU 的组合设计。
其中,Rubin GPU 由两颗 Reticle 尺寸核心构成,不仅具备 50 PFLOPS(FP4 精度)的算力,还配备 288 GB HBM4 显存;Vera CPU 则提供 88 个定制 Arm 核心与 176线程,其 NVLINK-C2C 互联带宽可达到 1.8 TB/s。
性能层面,Vera Rubin NVL144 平台相较上一代 GB300 NVL72 实现持续提升。
其中,该平台的 FP4 推理算力达 3.6 Exaflops、FP8 训练算力达 1.2Exaflops,较GB300 NVL72 提升约 3.3 倍;系统总显存带宽为 13 TB/s,快速存储容量为 75 TB,两项指标较上一代分别提升 60%。此外,该平台的 NVLINK 与 CX9 通信能力也实现双倍提升,最高速率分别可达 260 TB/s 与 28.8 TB/s。
Rubin Ultra NVL576 平台作为更高规格的迭代产品,在硬件与性能上均实现全面升级。
1)其 NVL 规模从 144 扩展至 576,CPU 架构保持不变,GPU 则升级为四颗Reticle 尺寸核心;单颗 GPU 性能最高可达 100 PFLOPS(FP4 精度),并搭载 1TBHBM4e 显存。
2)性能层面,该平台可实现 15 Exaflops(FP4 推理)与 5 Exaflops(FP8 训练)算力,相较上一代 GB300 NVL72 提升 14 倍,同时 HBM4 显存带宽达到 4.6 PB/s、快速存储容量达 365 TB;通信能力上,NVLINK 与 CX9 分别提升至12 倍与 8 倍,最高速率依次达到 1.5 PB/s 与 115.2 TB/s,整体算力、存储与连接效率均大幅跃升。
8、3+份技术系列基础知识详解(星球版)
9、12+份Manus技术报告合集
10、100+份AI芯片修炼合集
11、100+份AI Agent技术报告合集
… …
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


