大数跨境

机器人模型R1时刻!不只学动作更学会物理推理,LIBERO 99.9%

机器人模型R1时刻!不只学动作更学会物理推理,LIBERO 99.9% 新智元
2026-05-11
2
导读:强化物理建模,真机夯爆,LIBERO封神

新智元报道

编辑:犀牛

【新智元导读】机器人不只学会动作,更要学会物理世界推理!至简动力联合北大、港中文推出LaST-R1模型,通过"先思考后行动"范式,在LIBERO基准仅需1条轨迹预热,强化学习成功率高达99.9%;真机任务成功率从52.5%提升至93.75%,显著超越现有技术。

LaST-R1的核心突破在于:具身大模型强化学习不仅优化动作生成,更强化动作前的物理推理过程。当推理与环境反馈形成闭环,机器人便能在交互中建立物理直觉,实现从"会模仿"到"会思考行动"的关键跨越。

论文链接:https://arxiv.org/abs/2604.28192

项目主页:https://siriyep.github.io/last-r1/

代码链接:https://github.com/CHEN-H01/LaST-R1

LaST-R1作为LaST₀具身基座模型的升级,首创隐空间物理推理强化学习框架,已被ICML 2026收录为Spotlight论文(arxiv:https://arxiv.org/abs/2601.05248)。

具身智能的物理推理瓶颈

当前OpenVLA、π0等具身模型虽能关联图像、语言与动作,却普遍存在"会模仿,不等于会适应"缺陷。机器人常依赖特定轨迹数据,一旦物体位置、接触角度或光照变化,动作成功率骤降。其本质在于:现有模型采用"Observation→Action"直接映射模式,缺乏对物理关系(如"拉链需沿袋口运动")的隐式理解。

LaST-R1:让机器人先思考再行动

由至简动力、香港中文大学及北京大学计算机学院合作研发的LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning),提出自适应物理隐空间推理框架:

  • 隐空间思维链(latent CoT):在动作生成前建模场景结构、物体关系及动态变化,克服物理信息难以语言化的瓶颈
  • LAPO算法:通过隐空间到动作的策略优化,使环境奖励同时修正动作执行与推理过程
  • 自适应推理机制:根据任务复杂度动态调整推理时长,简单任务快速执行,复杂操作深度思考

该框架使模型在LIBERO基准仅需1条轨迹预热,强化学习成功率即达99.9%;真机任务中,用30条轨迹预热便将成功率从52.5%提升至93.75%,大幅超越使用100条专家轨迹的π0.5模型(71.25%)。

技术框架深度解析

三阶协同优化体系

第一阶段:行动前物理推理 模型接收视觉观测与语言指令后,生成隐空间物理推理嵌入(latent reasoning embeddings),为动作建立物理语义基础。

第二阶段:LAPO联合优化 创新引入隐空间比率目标函数,使环境奖励同时重塑"思考过程"与"动作执行"。关键公式: 成功轨迹既强化"好动作",也保留"好推理";失败轨迹同步修正动作与物理理解。

第三阶段:动态推理长度控制 通过<latent_end>标识符实现推理过程自适应终止,使简单任务推理预算降低60%,复杂接触操作延长推理深度。

实验验证效果

仿真与泛化能力

在LIBERO四大任务套件中,LaST-R1取得99.8%-100.0%成功率(平均99.9%)。其隐式推理机制显著提升未见任务泛化能力,OOD测试场景性能降幅较基准模型减少37%。

真实世界表现

在单臂插入、双臂协同等真实操作中,LaST-R1成功应对未见物体、背景变化及光照干扰,性能稳定性比现有技术提升51%。这表明模型掌握的是可迁移的物理动态,而非场景记忆。

行业影响与展望

LaST-R1将具身大模型强化学习从"感知-执行"直接映射推进至"推理-行动"新范式。环境奖励通过LAPO算法反向塑造隐推理空间,使机器人逐步形成物理直觉,为走出实验室、服务千家万户奠定基础。

该技术验证了:当机器人学会"先想明白再动手",成功率与泛化能力将实现质的飞跃。这标志着具身智能正从机械模仿走向自主思考的新阶段。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 16012
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读190.4k
粉丝0
内容16.0k