新智元报道
新智元报道
【新智元导读】CES 2026上,英伟达正式发布新一代AI超算架构Vera Rubin。其推理性能达Blackwell的5倍,训练性能提升3.5倍,单位Token推理成本降低90%,已进入大规模投产阶段,将于2026年下半年商用。同期宣布AlphaMayo端到端自动驾驶AI、物理AI开源全家桶及DGX Station台式超算等关键进展。
在CES 2026主题演讲中,黄仁勋正式发布英伟达全新AI超算架构——Vera Rubin,标志着AI基础设施进入规模化、工业化新阶段。
该架构以天文学家Vera Florence Cooper Rubin命名,首次将CPU、GPU、网络、存储与安全作为统一系统设计,目标是让算力像电力一样可规模化供给。
Rubin架构:AI超算平台正式投产
Vera Rubin已全面投产,将取代Blackwell成为下一代AI基础设施核心。其核心优势包括:
- 推理性能达Blackwell的5倍(最高50 PFLOPS NVFP4),训练性能提升3.5倍(35 PFLOPS);
- 单位Token推理成本降低90%;
- MoE模型训练所需GPU数量减少至Blackwell的1/4;
- HBM4内存带宽达22 TB/s(2.8倍提升),单GPU NVLink互连带宽达3.6 TB/s(翻倍)。
Rubin平台由6大核心组件构成:
- Rubin GPU:搭载第三代Transformer引擎,支持动态精度调度;
- Vera CPU:88核Olympus自研核心,兼容Armv9.2,通过NVLink-C2C实现176线程全性能执行;
- BlueField-4 DPU:专为AI上下文记忆管理设计,卸载网络、存储与安全任务;
- NVLink 6:单芯片交换能力达400 Gb/s,Rubin NVL72机架总带宽达260 TB/s(超全球互联网带宽);
- ConnectX-9 SuperNICs:与Spectrum-6深度协同,突破集群通信瓶颈;
- 推理上下文内存平台:在GPU内存与传统存储间构建“第三层”,Token处理能力提升5倍。
一个标准Rubin计算托盘集成2颗Vera CPU、4颗Rubin GPU、1颗BlueField-4 DPU与8颗ConnectX-9网卡,整单元算力达100 PetaFLOPS。
DGX SuperPOD:开箱即用的AI基础设施
基于Rubin架构,英伟达推出新一代DGX SuperPOD,整合8个Rubin NVL72机架(共576颗GPU),具备统一、安全、可扩展的AI计算集群能力。
NVIDIA Vera Rubin NVL72集成72颗Rubin GPU、36颗Vera CPU、NVLink 6、ConnectX-9 SuperNICs与BlueField-4 DPUs,可同时处理数千个Agentic AI智能体及百万级Token上下文。
第三代机密计算:全链路加密保障数据安全
Rubin是首个支持第三代机密计算(Confidential Computing)的AI超算平台,对模型参数、推理数据与用户请求实施端到端加密,云服务商无法访问明文数据,适用于金融、医疗、政务及企业私有AI部署场景。
首批部署厂商与商用节奏
AWS、Microsoft Azure、Google Cloud、Meta、OpenAI等头部云与AI公司已启动Rubin平台首批部署。2026年下半年起,Rubin将进入大规模商用阶段,下一代GPT、Gemini、Claude等大模型有望全面迁移至该架构。
AlphaMayo:具备显式推理能力的端到端自动驾驶AI
英伟达发布全新端到端自动驾驶AI——AlphaMayo。该系统具备显式推理能力,不仅能输出转向、制动、加速等动作指令,还可同步生成行动依据与形式化轨迹。
AlphaMayo依托“世界基础模型”Cosmos进行物理仿真训练,将长尾复杂场景拆解为可组合的物理与交通子问题,实现在0接管条件下的全流程自主驾驶。
英伟达DRIVE AV软件已搭载梅赛德斯-奔驰CLA车型,提供L2级端到端驾驶功能;AlphaMayo全套技术栈全部开源,适配机器人、机械臂等具身智能系统。
物理AI开源全家桶:模型、框架与基础设施全面开放
英伟达发布面向物理AI(Physical AI)的开源技术栈,所有模型已在Hugging Face上线:
- NVIDIA Cosmos Transfer/Predict 2.5:可定制世界模型,用于虚拟环境中生成符合物理规律的数据;
- NVIDIA Cosmos Reason 2:支持视觉理解与逻辑推理;
- NVIDIA Isaac GR00T N1.6:人形机器人全身控制模型。
配套开源工具:
- Isaac Lab-Arena:GitHub开源框架,集成主流机器人基准测试;
- NVIDIA OSMO:统一调度数据生成、训练与测试,支持工作站与混合云环境。
硬件层面,全新Jetson T4000模组搭载Blackwell架构,提供1200 FP4 TFLOPS算力(4倍于前代),70W功耗,千台起订价1999美元。
老黄预言:未来所有应用都将构建于AI之上
黄仁勋指出,当前正经历两次并行的平台级跃迁:一是从传统计算向AI原生计算演进,二是软硬件全栈底层重构。AI已成为新计算底座,软件开发、应用生成与运行方式均发生根本性变革。
物理AI是下一前沿,需三类计算协同:训练、边缘推理与数字仿真。其中仿真为关键——只有在可控数字环境中,AI才能反复试错、评估后果并建立对世界的认知。
英伟达已构建覆盖多模态(Nemotron 3)、世界模型(Cosmos)、机器人(GR00T)、蛋白质预测(OpenFold 3)等领域的开源模型生态,并在多个权威榜单取得领先。
DGX Station:办公桌上的微型AI数据中心
英伟达宣布DGX Station台式AI超算将于2026年春季上市,定位为开发者专属本地AI基础设施:
- 搭载GB300 Grace Blackwell Ultra超级芯片;
- 配备775GB FP4精度一致性内存(Coherent Memory);
- 支持本地运行1万亿参数(1T)超大规模模型;
- LLM预训练速度达250,000 Token/秒;
- 支持数百万数据点聚类与大型可视化分析。

