发表的论文《π₀.₆⁎: a VLA That Learns From Experience》提出RECAP 方法(基于优势条件策略的经验与修正强化学习),让 VLA 模型 π₀.₆⁎通过自主数据收集、人类干预修正和价值函数引导,实现端到端自我提升。在折叠衣物、制作浓缩咖啡、组装盒子等复杂任务中,吞吐量翻倍、失败率减半,甚至能连续 13 小时制作咖啡、2 小时无中断折叠衣物,真正落地实用场景!

传统 VLA 的三大 “硬伤”:模仿学习终究有上限
现有 VLA 模型依赖模仿学习,难以适配真实世界的复杂性,论文直指核心痛点:
性能天花板低:最多只能达到演示数据的水平,无法突破人类操作的局限(如速度、鲁棒性);
缺乏自我改进能力:不会从自主执行的错误中学习,遇到未见过的场景(如褶皱的衣物、粘性纸箱)容易失败;
真实世界鲁棒性不足:面对 deformable 物体(衣物)、液体(咖啡)、多步骤任务(组装盒子),成功率和吞吐量双低。

RECAP 方法:三步让 VLA “自主进化”
RECAP 的核心逻辑是 “收集经验→评估价值→优化策略”,形成闭环学习,无需大规模重新标注数据,具体分为三大步骤:
1. 第一步:收集 “实战经验”—— 自主 rollout + 人类干预
自主数据:模型独立完成任务,记录成功 / 失败轨迹,捕捉真实世界的 variability(如衣物摆放角度、纸箱粘性);
人类干预:当模型出现致命错误(如打翻咖啡杯、撕裂衣物)时,专家远程接管修正,提供 “正确示范”;
数据特点:融合演示数据、自主轨迹、人类修正,形成异质数据集,覆盖成功案例和失败教训。
2. 第二步:训练 “价值裁判”—— 分布型价值函数
输入:当前视觉观测 + 任务指令(如 “折叠衬衫”);
输出:离散化的价值分布,对应 “距离任务完成的步数”(归一化到 (-1, 0),0 代表成功);
核心作用:精准识别失败节点(如折叠衣物时扯皱布料)和有效动作(如咖啡粉压实力度),为策略优化提供依据。

3. 第三步:优化 “执行策略”—— 优势条件策略提取
优势计算:A 值 = 当前动作的预期回报 - 平均回报,正数代表动作比随机选择更优;
策略训练:在 VLA 输入中加入 “优势指示器”(“Advantage: positive/negative”),让模型学习 “优先执行高优势动作”;
关键创新:无需复杂的策略梯度(如 PPO),通过监督学习式训练实现策略优化,适配大参数量 VLA(如 Gemma 3 4B backbone)。

实验验证:真实世界任务性能翻倍
论文在三大复杂任务上验证 RECAP 的效果,π₀.₆⁎全面超越基线模型(π₀.₅、π₀.₆),关键指标如下:
1. 核心指标:吞吐量 + 成功率双突破
吞吐量(每小时成功完成任务数):多样衣物折叠、浓缩咖啡制作任务中翻倍,盒子组装任务提升 2 倍;
失败率:复杂任务中减半,浓缩咖啡制作失败率从 40% 降至 20% 以下;
稳定性:连续 13 小时制作浓缩咖啡、2 小时无中断折叠陌生衣物、工厂环境组装真实包装盒子。

2. 多轮迭代:越练越强,成功率稳步提升
衣物折叠:第 1 轮迭代成功率突破 90%,第 2 轮重点提升速度,吞吐量再增 50%;
盒子组装:第 2 轮迭代后成功率从 60% 升至 90%,解决 “标签粘贴偏移”“盒子堆叠不稳” 等关键问题。
3. 关键对比:优势条件策略碾压传统 RL 方法
衣物折叠任务中,π₀.₆⁎吞吐量比 PPO 高 60%,比 AWR 高 40%;
原因:避免了策略梯度的训练不稳定性,适配 flow matching 等连续动作生成模块,动作更平滑。
4. 失败模式移除:精准修正特定错误
针对 “折叠衬衫时衣领朝下” 这一特定失败模式,RECAP 仅用 2 轮迭代(600 条轨迹)就将成功率从 88% 提升至 97%,证明其 “精准改进错误” 的能力。

总结
核心贡献
提出通用 RECAP 框架,首次实现大参数量 VLA 的端到端 RL 自主改进,兼容 flow matching/diffusion 等复杂动作生成模块;
优势条件策略提取方法,比传统 PPO/AWR 更稳定、适配性更强,无需复杂超参调优;
真实世界复杂任务验证,覆盖 deformable 物体、液体操作、多步骤组装,证明方法的实用性。
未来方向
自动化数据收集:用高阶 VLA 实现场景重置、错误标注的自动化,减少人类干预;
更智能的探索策略:突破 “贪心探索” 局限,主动探索未尝试的有效动作;
在线实时更新:从 “批量迭代” 升级为 “实时学习”,边执行边优化。
论文出处
标题:《π₀.₆⁎: a VLA That Learns From Experience》
作者:Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, et al.(Physical Intelligence 团队)
项目链接:https://pi.website/blog/pistar06
版权声明:内容均来自上述论文,版权归原作者及相关团队所有,转载请注明出处。

