大数跨境

英伟达Cosmos 3炸场:一个模型看懂物理世界,训练周期从数月变数天

英伟达Cosmos 3炸场:一个模型看懂物理世界,训练周期从数月变数天 cDesgin-天渊
2026-06-05
1
导读:英伟达发布全球首款全开源全模态物理AI模型Cosmos 3,7项基准第一,训练周期从数月压缩到数天,物理AI的iPhone时刻来了!
如果你是一个机器人,过去学走路要几个月,现在只要几天。6月1日台北GTC大会,黄仁勋掏出了一个"让机器人看懂世界"的模型——全球首款全开源全模态物理AI模型Cosmos 3。7项基准测试第一,训练周期压缩100倍,还拉起了全球开发者联盟。物理AI的iPhone时刻,可能真的来了。

什么是Cosmos 3?一句话解释

想象一个AI模型,它不仅能看懂文字和图片,还能理解"杯子掉到地上会碎"、"汽车转弯需要减速"这些物理世界的规则。这就是Cosmos 3——英伟达给物理AI做的一个"世界模型"。

简单说:以前AI只活在数字世界,Cosmos 3让AI开始理解物理世界。这是机器人、自动驾驶、具身智能的核心基础设施。

五大模态,一个模型

Cosmos 3最炸裂的地方在于,它是全模态的——一个模型同时处理五种信息:

  • 文本
    :理解指令、生成描述("拿起红色的杯子")
  • 图像
    :识别物体、判断场景("前方有行人")
  • 视频
    :预测运动轨迹("球会滚到哪里")
  • 环境音
    :感知周围声音("后方有车辆靠近")
  • 动作
    :输出控制指令(机械臂该怎么动)

以前做机器人,你得分别训练视觉模型、语言模型、运动控制模型,然后用胶水代码把它们粘在一起。现在,一个Cosmos 3搞定全场景

混合Transformer:先想后做

Cosmos 3的架构也不是堆参数那么简单。它用了英伟达首创的混合Transformer架构,由两个核心模块组成:

  • 推理Transformer
    :先"想"——理解物体交互、运动轨迹、时空关系("如果推这个门,它会往哪开?")
  • 生成Transformer
    :再"做"——基于推理结果,生成视频和动作轨迹("机械臂应该这样伸过去")

先理解物理规律,再生成行动方案。这和人脑的"感知-决策-行动"循环非常相似。

训练周期:数月→数天,压缩100倍

这才是让行业最兴奋的数字。

过去训练一个物理AI系统,需要收集海量真实世界数据,搭建复杂的仿真环境,一遍一遍调参——整个流程动辄几个月。Cosmos 3把这个过程压缩到了几天

怎么做到的?Cosmos 3在数十亿条文本、图像、视频、声音和动作轨迹样本上完成了预训练。开发者不需要从零开始,只需要用少量数据微调——这就像GPT预训练+微调的范式,但应用到了物理世界。

7项基准测试,全部第一

数据不会说谎。Cosmos 3在已开源的世界模型中:

  • 世界生成精度
    :Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench——4项第一
  • 动作策略
    :RoboLab、RoboArena——2项第一
  • 视觉理解
    :VANTAGE-Bench、TAR——2项第一

8项基准,全部霸榜。这不是"挤进前三",是碾压级别的统治。

三个版本:从云端到边缘

英伟达还准备了不同规格:

  • Cosmos 3 Super
    :最高精度,适合高要求训练场景
  • Cosmos 3 Nano
    :轻量快速推理,部署灵活
  • Cosmos 3 Edge
    :即将上线,面向机器人等边缘设备实时推理

从数据中心到机器人本体,全链路覆盖。

全球开发者联盟:拉起生态阵营

英伟达不只是发模型,还拉起了一个NVIDIA Cosmos Coalition全球协作联盟,集结全球顶尖世界模型研发团队:

  • Agile Robots(思灵机器人)
  • Black Forest Labs
  • Generalist
  • LTX
  • Runway
  • Skild AI

合作伙伴已经包括LG电子、三星、理想汽车、斗山机器人等。英伟达在复制CUDA的生态打法——先开源建标准,再生态锁用户。

为什么这件事重要?

过去一年,AI行业的焦点一直在大语言模型——ChatGPT、Claude、Gemini。但黄仁勋在GTC上划出了一个新的赛道:

"多模态推理语言、视觉与世界模型接连取得突破,物理AI的变革时代即将到来。"

语言AI让机器能"说话",物理AI让机器能"做事"。前者改变了信息世界,后者将改变物理世界——从工厂到道路到家庭。

而Cosmos 3,就是物理AI领域的"GPT时刻"。

当英伟达把Cosmos 3开源,它不只是在发布一个模型——它在为物理AI搭建操作系统。就像CUDA让GPU编程变得简单,Cosmos 3让物理AI训练从"造轮子"变成"搭积木"。问题是:当机器人真正开始"看懂世界",我们准备好了吗?

作者:cDesgin-天渊 | 发布日期:2026年6月5日

【声明】内容源于网络
0
0
cDesgin-天渊
AI前沿资讯,AI项目落地
内容 40
粉丝 0
cDesgin-天渊 AI前沿资讯,AI项目落地
总阅读32
粉丝0
内容40