机器人模型R1时刻！不只学动作更学会物理推理，LIBERO 99.9%- 大数跨境

首页

机器人模型R1时刻！不只学动作更学会物理推理，LIBERO 99.9%

新智元

2026-05-11

导读：强化物理建模，真机夯爆，LIBERO封神

新智元报道

编辑：犀牛

【新智元导读】机器人不只学会动作，更要学会物理世界推理！至简动力联合北大、港中文推出LaST-R1模型，通过"先思考后行动"范式，在LIBERO基准仅需1条轨迹预热，强化学习成功率高达99.9%；真机任务成功率从52.5%提升至93.75%，显著超越现有技术。

LaST-R1的核心突破在于：具身大模型强化学习不仅优化动作生成，更强化动作前的物理推理过程。当推理与环境反馈形成闭环，机器人便能在交互中建立物理直觉，实现从"会模仿"到"会思考行动"的关键跨越。

论文链接：https://arxiv.org/abs/2604.28192

项目主页：https://siriyep.github.io/last-r1/

代码链接：https://github.com/CHEN-H01/LaST-R1

LaST-R1作为LaST₀具身基座模型的升级，首创隐空间物理推理强化学习框架，已被ICML 2026收录为Spotlight论文（arxiv：https://arxiv.org/abs/2601.05248）。

具身智能的物理推理瓶颈

当前OpenVLA、π0等具身模型虽能关联图像、语言与动作，却普遍存在"会模仿，不等于会适应"缺陷。机器人常依赖特定轨迹数据，一旦物体位置、接触角度或光照变化，动作成功率骤降。其本质在于：现有模型采用"Observation→Action"直接映射模式，缺乏对物理关系（如"拉链需沿袋口运动"）的隐式理解。

LaST-R1：让机器人先思考再行动

由至简动力、香港中文大学及北京大学计算机学院合作研发的LaST-R1（Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning），提出自适应物理隐空间推理框架：

隐空间思维链（latent CoT）：在动作生成前建模场景结构、物体关系及动态变化，克服物理信息难以语言化的瓶颈
LAPO算法：通过隐空间到动作的策略优化，使环境奖励同时修正动作执行与推理过程
自适应推理机制：根据任务复杂度动态调整推理时长，简单任务快速执行，复杂操作深度思考

该框架使模型在LIBERO基准仅需1条轨迹预热，强化学习成功率即达99.9%；真机任务中，用30条轨迹预热便将成功率从52.5%提升至93.75%，大幅超越使用100条专家轨迹的π0.5模型（71.25%）。

技术框架深度解析

三阶协同优化体系

第一阶段：行动前物理推理 模型接收视觉观测与语言指令后，生成隐空间物理推理嵌入（latent reasoning embeddings），为动作建立物理语义基础。

第二阶段：LAPO联合优化 创新引入隐空间比率目标函数，使环境奖励同时重塑"思考过程"与"动作执行"。关键公式：成功轨迹既强化"好动作"，也保留"好推理"；失败轨迹同步修正动作与物理理解。

第三阶段：动态推理长度控制 通过<latent_end>标识符实现推理过程自适应终止，使简单任务推理预算降低60%，复杂接触操作延长推理深度。

实验验证效果

仿真与泛化能力

在LIBERO四大任务套件中，LaST-R1取得99.8%-100.0%成功率（平均99.9%）。其隐式推理机制显著提升未见任务泛化能力，OOD测试场景性能降幅较基准模型减少37%。

真实世界表现

在单臂插入、双臂协同等真实操作中，LaST-R1成功应对未见物体、背景变化及光照干扰，性能稳定性比现有技术提升51%。这表明模型掌握的是可迁移的物理动态，而非场景记忆。

行业影响与展望

LaST-R1将具身大模型强化学习从"感知-执行"直接映射推进至"推理-行动"新范式。环境奖励通过LAPO算法反向塑造隐推理空间，使机器人逐步形成物理直觉，为走出实验室、服务千家万户奠定基础。

该技术验证了：当机器人学会"先想明白再动手"，成功率与泛化能力将实现质的飞跃。这标志着具身智能正从机械模仿走向自主思考的新阶段。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 16012

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读190.4k

粉丝0

内容16.0k