大数跨境
0
0

30人团队震撼英伟达!Jim Fan自曝三个教训,重押世界模型

30人团队震撼英伟达!Jim Fan自曝三个教训,重押世界模型 新智元
2026-01-10
4
导读:最强AI还没榨干最强硬件

【新智元导读】AI终极挑战——物理图灵测试。这一年,英伟达Jim Fan领导的GEAR实验室,正用一套完整的技术栈,向这堵高墙发起总攻。

机器人「物理图灵测试」距离真正通关,仍需时日。

英伟达杰出科学家Jim Fan表示,他正全身心投入一个单一使命:为机器人攻克「Physical Turing Test」(物理图灵测试)。这是AI的下一个挑战,甚至可能是「终极挑战」。

当前,人类仅凭文本字符串实现的超级智能,已足以问鼎诺贝尔奖;而机器人尚不具备黑猩猩级别的灵活度与操作能力。

「莫拉维克悖论」(Moravec's paradox)是一道必须打破的诅咒,一堵必须撕碎的高墙。没有任何事物,应阻碍人类在地球乃至其他星球上实现指数级物理生产力。

2025年,Jim Fan在英伟达创立GEAR实验室,30人团队已初具规模。其产出与影响力远超团队体量,覆盖基础模型、世界模型、具身推理、仿真、全身控制及各类强化学习(RL),构成机器人学习的完整技术栈。

GR00T基础模型:一年三代

GR00T是英伟达提出的「通用机器人基础模型体系」,目标是让机器人像大语言模型一样,具备跨任务、跨场景、可迁移、可学习的能力。其中最具代表性的成果是GR00T VLA模型——将视觉、语言、动作三模态统一于端到端架构,使机器人能理解环境、听懂指令,并生成连续可控动作。

2025年,GR00T VLA高频迭代:3月开源N1,6月发布N1.5,12月推出N1.6。

GR00T N1

3月首发,仅20亿参数即验证VLA架构在真实机器人任务中的可行性。开源后成为全球机器人生态的重要基础模型。

支持多步骤任务泛化,如单臂/双臂抓取、物体移动与双手传递。

GR00T N1.5

在架构、数据与建模层面全面升级:采用更强视觉语言模型Eagle VLM,提升语义理解与视觉感知;引入FLARE损失函数,增强未来动作预测一致性。在仿真基准任务中成功率显著优于N1。

GR00T N1.6

集成更优架构与推理能力,显著提升机器人在复杂环境下的智能性与鲁棒性。

GR00T Dreams:机器人「做梦」学习

DreamGen是一种基于视频世界模型的机器人学习框架,通过生成合成训练数据(即「数字梦境」),从视频中提取动作信号,驱动策略训练,实现新任务与新环境的高效泛化。

实验表明:仅需1个动作示例,机器人即可在10个新环境+22种新行为中成功泛化。

SONIC:通用人形机器人运动系统

SONIC是面向人形机器人的通用运动控制系统,目标是让人形机器人像「角色」一样被编程、学习与驱动。

其核心思想是:只要机器人能稳定、精准跟踪任意人类动作,行走、转身、抬手、抓取、全身协调等复杂行为,均可纳入同一控制框架。

团队以超大规模数据(9000+ GPU小时、1亿+动作帧)训练,覆盖丰富人体动作分布,使SONIC掌握人类运动整体结构,并衍生出多种交互与控制方式。

该系统为通用人形机器人提供了可扩展、可编程、可落地的运动基础设施。

其他重磅成果

除上述项目外,GEAR团队还在VLA强化学习后训练与Sim-to-Real实践方向取得突破:

PLD(Probe, Learn, Distill):真实世界自举式学习

针对机器人高精度操作易失败的问题,PLD引入残差强化学习(Residual RL),不推翻主策略,而是在已学动作基础上微调「纠错残差」,专用于恢复与补偿;再通过监督微调(SFT)将现场经验蒸馏回VLA主模型,转化为长期能力。

Jim Fan指出:该方法使GPU插入等高精度任务鲁棒性接近100%,是工业部署「最后一公里」的关键进展。

VIRAL:纯视觉Sim-to-Real长时任务框架

VIRAL是面向人形机器人的纯RGB视觉Sim-to-Real框架,首次在Unitree G1上实现零样本、无真实微调的54次连续loco-manipulation循环(走+站+操作)。

DoorMan:零样本开门策略

英伟达首个完全在仿真中训练、仅依赖RGB输入、可零样本迁移至真实世界的开门策略。在行走+操作+交互复合任务中,性能超越人类遥操员。其突破在于摆脱对力觉、位姿等特权状态的依赖,实现「仿真直出真实」。

FLARE:隐式未来表征预测算法

FLARE不预测未来像素,而是学习预测对动作决策有用的未来潜变量,提升机器人“提前思考”能力。

通过在标准VLA模型中嵌入少量未来token,实验在4个真实操作任务(各100条轨迹)中,GR-1平均成功率达95.1%。

三个教训:重注「视频世界模型」

Jim Fan总结2025年机器人领域三大关键认知:

1. 硬件跑在软件前面,但硬件可靠性严重拖慢软件迭代

Optimus、e-Atlas、Figure、Neo、G1等前沿硬件工程成果频出,但最强AI仍未充分释放其潜力。机器人「身体」能力远超「大脑」调度范围。问题在于:机器人无法自愈,过热、马达故障、固件异常每日频发,高度依赖人工看护,规模化瓶颈突出。

2. 机器人基准测试仍是「史诗级灾难」

行业缺乏共识:硬件平台不一、任务定义模糊、评分标准缺失、仿真器与真实搭建方案各异。结果导致——每个人都在自建基准上宣称SOTA;每个演示都是百次重试中挑出的最佳样本。2026年亟需重建可复现性与科学严谨性。

3. 基于VLM的VLA路线存在根本错位

VLA主流做法是嫁接动作模块至预训练VLM。但VLM本身高度优化于视觉问答类任务:其多数参数服务于语言知识,视觉编码器则刻意丢弃底层细节(因高层语义已够答题)。而机器人灵巧操作恰恰依赖这些细微物理特征。因此,VLA性能并不必然随VLM参数增长而提升。

相比之下,以视频世界模型为预训练目标更具合理性。Jim Fan已在此方向重点投入。

物理图灵测试,还有多远?

「物理图灵测试」概念由Jim Fan在红杉资本闭门演讲中首次提出:周末派对后家中一片狼藉(左);回家却发现一切已整理如新,烛光晚餐已备好(右)——你无法分辨这是人类还是机器所为。

机器人真实数据采集成本极高:关节信号随时间连续变化,无法从互联网获取,只能靠实操收集。遥操(识别人手姿态→流式传输控制信号)是当前主要方式,例如教机器人从面包机取面包并淋蜂蜜——过程缓慢且痛苦。

Jim Fan指出:真实数据无法满足Scaling Law,必须构建「无限能源」——虚拟世界。

仿真世界可实现万倍加速训练,并通过「域随机化」增强泛化能力,使仿真所学策略零样本迁移到真实环境。

Jim Fan提出仿真演进三阶段:

  • Simulation 1.0(数字孪生):精确建模物理环境与机器人,快、可控、可迁移;缺点是人工建模成本高。
  • Simulation 1.5(数字表亲):结合AI生成3D资产、场景与纹理 + 传统物理引擎,在真实与仿真间取得工程级「足够接近」。
  • Simulation 2.0(神经物理引擎):用视频扩散模型直接生成「可交互的未来」,无需显式物理建模;可处理软体、液体等复杂现象,并支持语言生成反事实世界,Jim Fan称之为「数字游牧者」。

所有仿真与真实数据最终汇聚至统一VLA模型:输入语言+视觉,输出动作控制——即GR00T系列模型持续演进的底层逻辑。

Jim Fan强调:物理AI的未来不仅是更聪明的机器人,更是一种新型基础设施——包括Physical API、物理APP Store,使技能可像软件一样分发与调用。

谷歌工程师Logan Kilpatrick预测:2026年将成为具身AI的关键之年。不久之后,现实世界将涌现更多实用机器人。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.5k
粉丝0
内容14.7k