大数跨境
0
0

GTC25:英伟达Vera Rubin超级芯片

GTC25:英伟达Vera Rubin超级芯片 智能计算芯世界
2025-11-28
1

黄仁勋在 GTC 大会上发表主题演讲,不仅展示了下一代超级芯片 Vera Rubin 的原型机,更提出了“AI 不是工具,而是会用工具的工人”这一颠覆性观点。

本文来自“《英伟达GTC25:发布Vera Rubin Superchip》”,本文所有资料都已上传至智能计算芯知识”星球。

NVIDIA 从 TeslaFermi 向 Vera Rubin 迭代升级

在 GPU 架构的早期演进中,NVIDIA 通过 Tesla、Fermi、Kepler、Maxwell 四大系列,实现了 GPU 从“图形加速专用硬件”到“通用并行计算引擎”的关键技术跃迁。

2010 年之前,NVIDIA 凭Tesla 架构迈出了里程碑式的一步 —— 这一架构的诞生,正式推动 GPU 完成了从传统图形加速到通用计算的跨越式转型,为后续技术革新奠定了核心基础。

进入 2010 年,Fermi 架构聚焦可靠性与通用性的双重升级:不仅首次引入 ECC(错误校验码)内存,从硬件层面保障了数据计算的精准性,解决了通用计算场景下的关键痛点;更对 CUDA 核心进行深度优化,打破了编程语言的适配局限,让 GPU 能兼容更多开发工具,进一步拓宽了通用计算的应用边界。

2012 年登场Kepler 架构,以 “能效比革命” 为核心突破方向。其创新推出的 SMX 流式多处理器,大幅提升了 GPU 的并行计算效率;同时,该架构首次支持 GPUDirect 技术,实现了 GPU 与 GPU 之间、GPU 与存储设备之间的直接数据传输,彻底摆脱了 CPU 中转的性能瓶颈,数据交互效率实现质的飞跃。

时间来到 2014 年,伴随移动设备的全面兴起,市场对低功耗、高性能 GPU 的需求呈爆发式增长。NVIDIA 顺势推Maxwell 架构,该架构采用台积电 28nm 工艺制程,针对移动端、桌面端等不同应用场景进行了精准的适配优化,既满足了高性能计算需求,又实现了功耗的有效控制,完美契合了当时的市场发展趋势。


随着人工智能与高性能计算需求的持续爆发,2016 年成为 NVIDIA 架构迭代的加速起点 —— 此后,其不仅密集推出 Volta、Hopper、Blackwell 等一系列突破性架构,通过技术革新不断定义算力标准,计划以下一代架构持续突破算力边界。

2016 年问世Volta 架构,以一项颠覆性创新改写了 AI 算力格局:其首创的 TensorCore 技术,首次实现 AI 算力的硬件级加速,彻底摆脱了传统通用计算核心支撑 AI 运算的效率瓶颈。这一技术不仅让深度学习模型的训练与推理速度大幅提升,更直接推动 AI 算力商业化时代的到来,为图像识别、自然语言处理等深度学习应用的大规模落地提供了关键算力支撑。

时间来到 2022 年,面对大模型研发热潮下 “千亿级参数” 的算力需求,Hopper 架构精准聚焦核心痛点:其搭载的 Transformer Engine,针对大模型核心的 Transformer 层进行深度优化,通过硬件级的混合精度计算能力,有效降低千亿参数模型的训练成本、缩短研发周期,为大模型从 “概念探索” 走向 “产业应用” 夯实了算力基础,成为 AI 大模型发展的重要推手。

2024 年发布Blackwell 架构,则实现了从 “单一芯片优化” 到 “全栈协同创新” 的跨越:通过 “芯片、系统、软件” 的深度协同设计,该架构在两大核心领域实现双重跃升 —— 在 AI 推理领域,凭借优化的计算单元与内存架构,推理效率较前代大幅提升,满足实时 AI 服务的高并发需求;在图形渲染领域,通过全新的渲染管线设计,进一步突破画质与帧率上限,兼顾 AI 计算与专业图形处理的双重需求,成为应对复杂计算场景的全能型架构。


而 NVIDIA 计划推出的下一代架构,将进一步突破算力密度与能效比的极限,为超大规模 AI 集群、量子计算协同模拟等复杂场景提供底层技术支撑。

NVIDIA Vera Rubin 超级芯片以异构协同与架构创新实现算力跃升

伴随“摩尔定律”逐步逼近物理极限,晶体管密度提升对算力的边际贡献持续走低。为突破这一瓶颈,NVIDIA 于 2025 年 10 月 29 日推出 Vera Rubin 超级芯片。该超级芯片并未单纯堆积晶体管,而是通过 CPU 与 GPU 的异构协同、HBM4 高带宽显存的搭配,以及 CUDA 生态的兼容,以架构与系统级创新实现算力跃升。

每块 Rubin GPU 被大量电源电路环绕,配备 8 个 HBM4(HBM4 高宽带显存)显存位点,集成两颗 Reticle 尺寸(半导体光刻机掩模版的最大制造尺寸)GPU 芯片;VeraCPU 搭载 88 个定制 ARM 核心,总计提供 176 个线程。

从性能迭代视角来看,NVIDIA 芯片架构正沿着 Hopper、Blackwell 到 Rubin 的路径持续演进。其中,作为当前旗舰产品Vera Rubin 超级芯片,其搭载的 VR200、VR300(Ultra)两款加速器,在 FP4 算力上分别达到 50 PFLOPS 与 100 PFLOPS;显存配置更是实现突破,提供 288 GB HBM4 乃至 1025 GB HBM4E 两种选择,显存带宽最高可达 32 TB/s—— 相较于前代 Blackwell 架构,这些核心性能指标均实现了数倍的跨越式提升。

与此同时,NVIDIA CPU 也完成了从 Grace 系列到 Vera 系列的升级。核心性能与线程数的双重强化,进一步为异构协同计算场景提供了更强劲的支撑,助力整体算力实现更高效的释放。

2026-2027 H2 计划推出 Vera Rubin 平台

针对新一代计算平台,黄仁勋宣布,公司预计于 2026 年 H2 推出 Vera Rubin NVL144 平台,并计划在 2027 年 H2 进一步推出 Rubin Ultra NVL576 平台。

Vera Rubin NVL144 平台的核心硬件采用 Rubin GPU 与 Vera CPU 的组合设计。

其中,Rubin GPU 由两颗 Reticle 尺寸核心构成,不仅具备 50 PFLOPS(FP4 精度)的算力,还配备 288 GB HBM4 显存;Vera CPU 则提供 88 个定制 Arm 核心与 176线程,其 NVLINK-C2C 互联带宽可达到 1.8 TB/s。

性能层面,Vera Rubin NVL144 平台相较上一代 GB300 NVL72 实现持续提升。

其中,该平台的 FP4 推理算力达 3.6 Exaflops、FP8 训练算力达 1.2Exaflops,较GB300 NVL72 提升约 3.3 倍;系统总显存带宽为 13 TB/s,快速存储容量为 75 TB,两项指标较上一代分别提升 60%。此外,该平台的 NVLINK 与 CX9 通信能力也实现双倍提升,最高速率分别可达 260 TB/s 与 28.8 TB/s。

Rubin Ultra NVL576 平台作为更高规格的迭代产品,在硬件与性能上均实现全面升级。

1)其 NVL 规模从 144 扩展至 576,CPU 架构保持不变,GPU 则升级为四颗Reticle 尺寸核心;单颗 GPU 性能最高可达 100 PFLOPS(FP4 精度),并搭载 1TBHBM4e 显存。

2)性能层面,该平台可实现 15 Exaflops(FP4 推理)与 5 Exaflops(FP8 训练)算力,相较上一代 GB300 NVL72 提升 14 倍,同时 HBM4 显存带宽达到 4.6 PB/s、快速存储容量达 365 TB;通信能力上,NVLINK 与 CX9 分别提升至12 倍与 8 倍,最高速率依次达到 1.5 PB/s 与 115.2 TB/s,整体算力、存储与连接效率均大幅跃升。

AI/GPU/CPU芯片专题资料都已上传至“智能计算芯知识”星球。更多芯片资料请参阅“《105+份GPU芯片技术及白皮书合集》”,“《100+份AI芯片技术修炼合集》”,“《42+份半导体芯片图谱》”,“《70+份半导体研究框架》”等。

下载链接
《2025 OCP APAC Summit(Storage合集)
2025 OCP APAC Summit(Rack & Power合集下)
2025 OCP APAC Summit(Rack & Power合集上)
2025 OCP APAC Summit(Server合集下)
2025 OCP APAC Summit(Server合集上)
OCP2025大会资料合集(4)
OCP2025大会资料合集(3)
OCP2025大会资料合集(2)
OCP2025大会资料合集(1)
......
重磅合集
1、70+篇半导体行业“研究框架”合集
2、56+份智能网卡和DPU合集
3、14份半导体“AI的iPhone时刻”系列合集
4、21份走进“芯”时代系列深度报告合集
5、800+份重磅ChatGPT专业报告
6、105份GPU技术及白皮书汇总
7、11+份AI的裂变时刻系列报告

8、3+份技术系列基础知识详解(星球版)

9、12+份Manus技术报告合集

10、100+份AI芯片修炼合集

11、100+份AI Agent技术报告合集

… …


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


【声明】内容源于网络
0
0
智能计算芯世界
聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
内容 557
粉丝 0
智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
总阅读48
粉丝0
内容557