
新智元报道
编辑:犀牛
【新智元导读】机器人不只学会动作,更要学会物理世界推理!至简动力联合北大、港中文推出LaST-R1模型,通过"先思考后行动"范式,在LIBERO基准仅需1条轨迹预热,强化学习成功率高达99.9%;真机任务成功率从52.5%提升至93.75%,显著超越现有技术。
LaST-R1的核心突破在于:具身大模型强化学习不仅优化动作生成,更强化动作前的物理推理过程。当推理与环境反馈形成闭环,机器人便能在交互中建立物理直觉,实现从"会模仿"到"会思考行动"的关键跨越。

论文链接:https://arxiv.org/abs/2604.28192
项目主页:https://siriyep.github.io/last-r1/
代码链接:https://github.com/CHEN-H01/LaST-R1
LaST-R1作为LaST₀具身基座模型的升级,首创隐空间物理推理强化学习框架,已被ICML 2026收录为Spotlight论文(arxiv:https://arxiv.org/abs/2601.05248)。
具身智能的物理推理瓶颈
当前OpenVLA、π0等具身模型虽能关联图像、语言与动作,却普遍存在"会模仿,不等于会适应"缺陷。机器人常依赖特定轨迹数据,一旦物体位置、接触角度或光照变化,动作成功率骤降。其本质在于:现有模型采用"Observation→Action"直接映射模式,缺乏对物理关系(如"拉链需沿袋口运动")的隐式理解。
LaST-R1:让机器人先思考再行动
由至简动力、香港中文大学及北京大学计算机学院合作研发的LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning),提出自适应物理隐空间推理框架:
- 隐空间思维链(latent CoT):在动作生成前建模场景结构、物体关系及动态变化,克服物理信息难以语言化的瓶颈
- LAPO算法:通过隐空间到动作的策略优化,使环境奖励同时修正动作执行与推理过程
- 自适应推理机制:根据任务复杂度动态调整推理时长,简单任务快速执行,复杂操作深度思考
该框架使模型在LIBERO基准仅需1条轨迹预热,强化学习成功率即达99.9%;真机任务中,用30条轨迹预热便将成功率从52.5%提升至93.75%,大幅超越使用100条专家轨迹的π0.5模型(71.25%)。
技术框架深度解析
三阶协同优化体系
第一阶段:行动前物理推理 模型接收视觉观测与语言指令后,生成隐空间物理推理嵌入(latent reasoning embeddings),为动作建立物理语义基础。
第二阶段:LAPO联合优化 创新引入隐空间比率目标函数,使环境奖励同时重塑"思考过程"与"动作执行"。关键公式:
成功轨迹既强化"好动作",也保留"好推理";失败轨迹同步修正动作与物理理解。
第三阶段:动态推理长度控制 通过<latent_end>标识符实现推理过程自适应终止,使简单任务推理预算降低60%,复杂接触操作延长推理深度。
实验验证效果
仿真与泛化能力
在LIBERO四大任务套件中,LaST-R1取得99.8%-100.0%成功率(平均99.9%)。其隐式推理机制显著提升未见任务泛化能力,OOD测试场景性能降幅较基准模型减少37%。
真实世界表现
在单臂插入、双臂协同等真实操作中,LaST-R1成功应对未见物体、背景变化及光照干扰,性能稳定性比现有技术提升51%。这表明模型掌握的是可迁移的物理动态,而非场景记忆。
行业影响与展望
LaST-R1将具身大模型强化学习从"感知-执行"直接映射推进至"推理-行动"新范式。环境奖励通过LAPO算法反向塑造隐推理空间,使机器人逐步形成物理直觉,为走出实验室、服务千家万户奠定基础。
该技术验证了:当机器人学会"先想明白再动手",成功率与泛化能力将实现质的飞跃。这标志着具身智能正从机械模仿走向自主思考的新阶段。

