如果你是一个机器人,过去学走路要几个月,现在只要几天。6月1日台北GTC大会,黄仁勋掏出了一个"让机器人看懂世界"的模型——全球首款全开源全模态物理AI模型Cosmos 3。7项基准测试第一,训练周期压缩100倍,还拉起了全球开发者联盟。物理AI的iPhone时刻,可能真的来了。
什么是Cosmos 3?一句话解释
想象一个AI模型,它不仅能看懂文字和图片,还能理解"杯子掉到地上会碎"、"汽车转弯需要减速"这些物理世界的规则。这就是Cosmos 3——英伟达给物理AI做的一个"世界模型"。
简单说:以前AI只活在数字世界,Cosmos 3让AI开始理解物理世界。这是机器人、自动驾驶、具身智能的核心基础设施。
五大模态,一个模型
Cosmos 3最炸裂的地方在于,它是全模态的——一个模型同时处理五种信息:
- 文本
:理解指令、生成描述("拿起红色的杯子") - 图像
:识别物体、判断场景("前方有行人") - 视频
:预测运动轨迹("球会滚到哪里") - 环境音
:感知周围声音("后方有车辆靠近") - 动作
:输出控制指令(机械臂该怎么动)
以前做机器人,你得分别训练视觉模型、语言模型、运动控制模型,然后用胶水代码把它们粘在一起。现在,一个Cosmos 3搞定全场景。
混合Transformer:先想后做
Cosmos 3的架构也不是堆参数那么简单。它用了英伟达首创的混合Transformer架构,由两个核心模块组成:
- 推理Transformer
:先"想"——理解物体交互、运动轨迹、时空关系("如果推这个门,它会往哪开?") - 生成Transformer
:再"做"——基于推理结果,生成视频和动作轨迹("机械臂应该这样伸过去")
先理解物理规律,再生成行动方案。这和人脑的"感知-决策-行动"循环非常相似。
训练周期:数月→数天,压缩100倍
这才是让行业最兴奋的数字。
过去训练一个物理AI系统,需要收集海量真实世界数据,搭建复杂的仿真环境,一遍一遍调参——整个流程动辄几个月。Cosmos 3把这个过程压缩到了几天。
怎么做到的?Cosmos 3在数十亿条文本、图像、视频、声音和动作轨迹样本上完成了预训练。开发者不需要从零开始,只需要用少量数据微调——这就像GPT预训练+微调的范式,但应用到了物理世界。
7项基准测试,全部第一
数据不会说谎。Cosmos 3在已开源的世界模型中:
- 世界生成精度
:Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench——4项第一 - 动作策略
:RoboLab、RoboArena——2项第一 - 视觉理解
:VANTAGE-Bench、TAR——2项第一
8项基准,全部霸榜。这不是"挤进前三",是碾压级别的统治。
三个版本:从云端到边缘
英伟达还准备了不同规格:
- Cosmos 3 Super
:最高精度,适合高要求训练场景 - Cosmos 3 Nano
:轻量快速推理,部署灵活 - Cosmos 3 Edge
:即将上线,面向机器人等边缘设备实时推理
从数据中心到机器人本体,全链路覆盖。
全球开发者联盟:拉起生态阵营
英伟达不只是发模型,还拉起了一个NVIDIA Cosmos Coalition全球协作联盟,集结全球顶尖世界模型研发团队:
-
Agile Robots(思灵机器人) -
Black Forest Labs -
Generalist -
LTX -
Runway -
Skild AI
合作伙伴已经包括LG电子、三星、理想汽车、斗山机器人等。英伟达在复制CUDA的生态打法——先开源建标准,再生态锁用户。
为什么这件事重要?
过去一年,AI行业的焦点一直在大语言模型——ChatGPT、Claude、Gemini。但黄仁勋在GTC上划出了一个新的赛道:
"多模态推理语言、视觉与世界模型接连取得突破,物理AI的变革时代即将到来。"
语言AI让机器能"说话",物理AI让机器能"做事"。前者改变了信息世界,后者将改变物理世界——从工厂到道路到家庭。
而Cosmos 3,就是物理AI领域的"GPT时刻"。
当英伟达把Cosmos 3开源,它不只是在发布一个模型——它在为物理AI搭建操作系统。就像CUDA让GPU编程变得简单,Cosmos 3让物理AI训练从"造轮子"变成"搭积木"。问题是:当机器人真正开始"看懂世界",我们准备好了吗?
作者:cDesgin-天渊 | 发布日期:2026年6月5日

