

PI最新作品 RL强化学习，VLA 也能 “从经验中学习”！π₀.₆⁎用 RECAP 实现自我进化，吞吐量翻倍、失败率减半。

具身智能制造

2025-11-19

导读：让 VLA 像人一样 “从实践中积累经验”，通过强化学习自主改进！

传统视觉 - 语言 - 动作（VLA）模型困在 “模仿学习的天花板” 里 —— 最多只能复刻演示数据的水平，遇到真实世界的突发情况就拉胯。但最新研究打破了这个局限：让 VLA 像人一样 “从实践中积累经验”，通过强化学习自主改进！

发表的论文《π₀.₆⁎: a VLA That Learns From Experience》提出RECAP 方法（基于优势条件策略的经验与修正强化学习），让 VLA 模型 π₀.₆⁎通过自主数据收集、人类干预修正和价值函数引导，实现端到端自我提升。在折叠衣物、制作浓缩咖啡、组装盒子等复杂任务中，吞吐量翻倍、失败率减半，甚至能连续 13 小时制作咖啡、2 小时无中断折叠衣物，真正落地实用场景！

图 1 展示 RECAP 的闭环学习逻辑：从预训练 VLA 出发，通过自主部署收集数据 + 人类干预，训练价值函数评估动作优势，再微调 VLA 实现迭代改进，红色标注 “经验驱动自我进化” 的核心突破。

传统 VLA 的三大 “硬伤”：模仿学习终究有上限

现有 VLA 模型依赖模仿学习，难以适配真实世界的复杂性，论文直指核心痛点：

性能天花板低：最多只能达到演示数据的水平，无法突破人类操作的局限（如速度、鲁棒性）；
缺乏自我改进能力：不会从自主执行的错误中学习，遇到未见过的场景（如褶皱的衣物、粘性纸箱）容易失败；
真实世界鲁棒性不足：面对 deformable 物体（衣物）、液体（咖啡）、多步骤任务（组装盒子），成功率和吞吐量双低。

图 2 展示 π₀.₆⁎的实战能力：折叠多样衣物、组装纸箱、制作浓缩咖啡，覆盖真实世界的复杂场景，红色标注 “多步骤、 deformable 物体、液体操作” 三大挑战。

RECAP 方法：三步让 VLA “自主进化”

RECAP 的核心逻辑是 “收集经验→评估价值→优化策略”，形成闭环学习，无需大规模重新标注数据，具体分为三大步骤：

1. 第一步：收集 “实战经验”—— 自主 rollout + 人类干预

让预训练 VLA 在真实场景中自主执行任务，同时引入人类专家干预修正关键错误：

自主数据：模型独立完成任务，记录成功 / 失败轨迹，捕捉真实世界的 variability（如衣物摆放角度、纸箱粘性）；
人类干预：当模型出现致命错误（如打翻咖啡杯、撕裂衣物）时，专家远程接管修正，提供 “正确示范”；
数据特点：融合演示数据、自主轨迹、人类修正，形成异质数据集，覆盖成功案例和失败教训。

2. 第二步：训练 “价值裁判”—— 分布型价值函数

训练一个语言条件的价值函数，评估每个动作对任务完成的 “贡献度”：

输入：当前视觉观测 + 任务指令（如 “折叠衬衫”）；
输出：离散化的价值分布，对应 “距离任务完成的步数”（归一化到 (-1, 0)，0 代表成功）；
核心作用：精准识别失败节点（如折叠衣物时扯皱布料）和有效动作（如咖啡粉压实力度），为策略优化提供依据。

图 4 展示价值函数的判断能力：左图（成功折叠衣物）中绿色段表示动作有效，右图（失败取滤水器）中红色段标记错误动作，红色箭头标注 “精准识别成败关键”。

3. 第三步：优化 “执行策略”—— 优势条件策略提取

基于价值函数计算 “动作优势”（A 值），引导 VLA 优先选择高价值动作，避免重复错误：

优势计算：A 值 = 当前动作的预期回报 - 平均回报，正数代表动作比随机选择更优；
策略训练：在 VLA 输入中加入 “优势指示器”（“Advantage: positive/negative”），让模型学习 “优先执行高优势动作”；
关键创新：无需复杂的策略梯度（如 PPO），通过监督学习式训练实现策略优化，适配大参数量 VLA（如 Gemma 3 4B backbone）。

图 3 展示模型交互逻辑：VLA 基于预训练 VLM，结合优势指示器输出动作，价值函数独立评估状态价值，红色框标注 “优势条件 + 价值函数双模块” 的核心设计。

实验验证：真实世界任务性能翻倍

论文在三大复杂任务上验证 RECAP 的效果，π₀.₆⁎全面超越基线模型（π₀.₅、π₀.₆），关键指标如下：

1. 核心指标：吞吐量 + 成功率双突破

吞吐量（每小时成功完成任务数）：多样衣物折叠、浓缩咖啡制作任务中翻倍，盒子组装任务提升 2 倍；
失败率：复杂任务中减半，浓缩咖啡制作失败率从 40% 降至 20% 以下；
稳定性：连续 13 小时制作浓缩咖啡、2 小时无中断折叠陌生衣物、工厂环境组装真实包装盒子。

图 7 清晰展示：π₀.₆⁎（Ours）在所有任务中的吞吐量均远超基线，红色柱标注 “RECAP 带来的翻倍提升”，尤其是多样衣物和浓缩咖啡任务优势显著。

2. 多轮迭代：越练越强，成功率稳步提升

通过 2 轮 RECAP 迭代，模型性能持续优化：

衣物折叠：第 1 轮迭代成功率突破 90%，第 2 轮重点提升速度，吞吐量再增 50%；
盒子组装：第 2 轮迭代后成功率从 60% 升至 90%，解决 “标签粘贴偏移”“盒子堆叠不稳” 等关键问题。

左图展示吞吐量迭代提升，右图展示成功率变化，红色箭头标注 “多轮迭代持续优化”，盒子组装任务在第 2 轮实现质的飞跃。

3. 关键对比：优势条件策略碾压传统 RL 方法

对比 AWR（优势加权回归）、PPO（近端策略优化）等传统 RL 方法，RECAP 的优势条件策略提取更适配 VLA：

衣物折叠任务中，π₀.₆⁎吞吐量比 PPO 高 60%，比 AWR 高 40%；
原因：避免了策略梯度的训练不稳定性，适配 flow matching 等连续动作生成模块，动作更平滑。

4. 失败模式移除：精准修正特定错误

针对 “折叠衬衫时衣领朝下” 这一特定失败模式，RECAP 仅用 2 轮迭代（600 条轨迹）就将成功率从 88% 提升至 97%，证明其 “精准改进错误” 的能力。

图 12 展示：RECAP 有效消除 “衣领朝下” 的错误，红色标注 “少量数据即可精准修正特定失败模式”。

总结

核心贡献

提出通用 RECAP 框架，首次实现大参数量 VLA 的端到端 RL 自主改进，兼容 flow matching/diffusion 等复杂动作生成模块；
优势条件策略提取方法，比传统 PPO/AWR 更稳定、适配性更强，无需复杂超参调优；
真实世界复杂任务验证，覆盖 deformable 物体、液体操作、多步骤组装，证明方法的实用性。

未来方向

自动化数据收集：用高阶 VLA 实现场景重置、错误标注的自动化，减少人类干预；
更智能的探索策略：突破 “贪心探索” 局限，主动探索未尝试的有效动作；
在线实时更新：从 “批量迭代” 升级为 “实时学习”，边执行边优化。

论文出处

标题：《π₀.₆⁎: a VLA That Learns From Experience》
作者：Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, et al.（Physical Intelligence 团队）
项目链接：https://pi.website/blog/pistar06
版权声明：内容均来自上述论文，版权归原作者及相关团队所有，转载请注明出处。

关注【具身智能制造】，每周拆解机器人与 AI 领域顶会，带你紧跟前沿技术～

【声明】内容源于网络

具身智能制造

深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

内容 41

粉丝 0

具身智能制造深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

总阅读12

粉丝0

内容41