大数跨境
0
0

PI最新作品 RL强化学习,VLA 也能 “从经验中学习”!π₀.₆⁎用 RECAP 实现自我进化,吞吐量翻倍、失败率减半。

PI最新作品 RL强化学习,VLA 也能 “从经验中学习”!π₀.₆⁎用 RECAP 实现自我进化,吞吐量翻倍、失败率减半。 具身智能制造
2025-11-19
0
导读:让 VLA 像人一样 “从实践中积累经验”,通过强化学习自主改进!
传统视觉 - 语言 - 动作(VLA)模型困在 “模仿学习的天花板” 里 —— 最多只能复刻演示数据的水平,遇到真实世界的突发情况就拉胯。但最新研究打破了这个局限:让 VLA 像人一样 “从实践中积累经验”,通过强化学习自主改进!

发表的论文《π₀.₆⁎: a VLA That Learns From Experience》提出RECAP 方法(基于优势条件策略的经验与修正强化学习),让 VLA 模型 π₀.₆⁎通过自主数据收集、人类干预修正和价值函数引导,实现端到端自我提升。在折叠衣物、制作浓缩咖啡、组装盒子等复杂任务中,吞吐量翻倍、失败率减半,甚至能连续 13 小时制作咖啡、2 小时无中断折叠衣物,真正落地实用场景!




图 1 展示 RECAP 的闭环学习逻辑:从预训练 VLA 出发,通过自主部署收集数据 + 人类干预,训练价值函数评估动作优势,再微调 VLA 实现迭代改进,红色标注 “经验驱动自我进化” 的核心突破。


01

传统 VLA 的三大 “硬伤”:模仿学习终究有上限

现有 VLA 模型依赖模仿学习,难以适配真实世界的复杂性,论文直指核心痛点:


  1. 性能天花板低:最多只能达到演示数据的水平,无法突破人类操作的局限(如速度、鲁棒性);

  2. 缺乏自我改进能力:不会从自主执行的错误中学习,遇到未见过的场景(如褶皱的衣物、粘性纸箱)容易失败;

  3. 真实世界鲁棒性不足:面对 deformable 物体(衣物)、液体(咖啡)、多步骤任务(组装盒子),成功率和吞吐量双低。




图 2 展示 π₀.₆⁎的实战能力:折叠多样衣物、组装纸箱、制作浓缩咖啡,覆盖真实世界的复杂场景,红色标注 “多步骤、 deformable 物体、液体操作” 三大挑战。


02

RECAP 方法:三步让 VLA “自主进化”

RECAP 的核心逻辑是 “收集经验→评估价值→优化策略”,形成闭环学习,无需大规模重新标注数据,具体分为三大步骤:

1. 第一步:收集 “实战经验”—— 自主 rollout + 人类干预

让预训练 VLA 在真实场景中自主执行任务,同时引入人类专家干预修正关键错误:

  • 自主数据:模型独立完成任务,记录成功 / 失败轨迹,捕捉真实世界的 variability(如衣物摆放角度、纸箱粘性);

  • 人类干预:当模型出现致命错误(如打翻咖啡杯、撕裂衣物)时,专家远程接管修正,提供 “正确示范”;

  • 数据特点:融合演示数据、自主轨迹、人类修正,形成异质数据集,覆盖成功案例和失败教训。

2. 第二步:训练 “价值裁判”—— 分布型价值函数

训练一个语言条件的价值函数,评估每个动作对任务完成的 “贡献度”:

  • 输入:当前视觉观测 + 任务指令(如 “折叠衬衫”);

  • 输出:离散化的价值分布,对应 “距离任务完成的步数”(归一化到 (-1, 0),0 代表成功);

  • 核心作用:精准识别失败节点(如折叠衣物时扯皱布料)和有效动作(如咖啡粉压实力度),为策略优化提供依据。




图 4 展示价值函数的判断能力:左图(成功折叠衣物)中绿色段表示动作有效,右图(失败取滤水器)中红色段标记错误动作,红色箭头标注 “精准识别成败关键”。

3. 第三步:优化 “执行策略”—— 优势条件策略提取

基于价值函数计算 “动作优势”(A 值),引导 VLA 优先选择高价值动作,避免重复错误:

  • 优势计算:A 值 = 当前动作的预期回报 - 平均回报,正数代表动作比随机选择更优;

  • 策略训练:在 VLA 输入中加入 “优势指示器”(“Advantage: positive/negative”),让模型学习 “优先执行高优势动作”;

  • 关键创新:无需复杂的策略梯度(如 PPO),通过监督学习式训练实现策略优化,适配大参数量 VLA(如 Gemma 3 4B backbone)。




图 3 展示模型交互逻辑:VLA 基于预训练 VLM,结合优势指示器输出动作,价值函数独立评估状态价值,红色框标注 “优势条件 + 价值函数双模块” 的核心设计。
03

实验验证:真实世界任务性能翻倍

论文在三大复杂任务上验证 RECAP 的效果,π₀.₆⁎全面超越基线模型(π₀.₅、π₀.₆),关键指标如下:

3e75c3ea-9498-4dc5-8734-38a0a76e29ee.png

1. 核心指标:吞吐量 + 成功率双突破

  • 吞吐量(每小时成功完成任务数):多样衣物折叠、浓缩咖啡制作任务中翻倍,盒子组装任务提升 2 倍;

  • 失败率:复杂任务中减半,浓缩咖啡制作失败率从 40% 降至 20% 以下;

  • 稳定性:连续 13 小时制作浓缩咖啡、2 小时无中断折叠陌生衣物、工厂环境组装真实包装盒子。




图 7 清晰展示:π₀.₆⁎(Ours)在所有任务中的吞吐量均远超基线,红色柱标注 “RECAP 带来的翻倍提升”,尤其是多样衣物和浓缩咖啡任务优势显著。

2. 多轮迭代:越练越强,成功率稳步提升

通过 2 轮 RECAP 迭代,模型性能持续优化:

  • 衣物折叠:第 1 轮迭代成功率突破 90%,第 2 轮重点提升速度,吞吐量再增 50%;

  • 盒子组装:第 2 轮迭代后成功率从 60% 升至 90%,解决 “标签粘贴偏移”“盒子堆叠不稳” 等关键问题。




左图展示吞吐量迭代提升,右图展示成功率变化,红色箭头标注 “多轮迭代持续优化”,盒子组装任务在第 2 轮实现质的飞跃。

3. 关键对比:优势条件策略碾压传统 RL 方法

对比 AWR(优势加权回归)、PPO(近端策略优化)等传统 RL 方法,RECAP 的优势条件策略提取更适配 VLA:

  • 衣物折叠任务中,π₀.₆⁎吞吐量比 PPO 高 60%,比 AWR 高 40%;

  • 原因:避免了策略梯度的训练不稳定性,适配 flow matching 等连续动作生成模块,动作更平滑。

4. 失败模式移除:精准修正特定错误

针对 “折叠衬衫时衣领朝下” 这一特定失败模式,RECAP 仅用 2 轮迭代(600 条轨迹)就将成功率从 88% 提升至 97%,证明其 “精准改进错误” 的能力。

194a2418-8c61-4c00-bdef-2e7a9c76a053.png




图 12 展示:RECAP 有效消除 “衣领朝下” 的错误,红色标注 “少量数据即可精准修正特定失败模式”。



04

总结

核心贡献

  1. 提出通用 RECAP 框架,首次实现大参数量 VLA 的端到端 RL 自主改进,兼容 flow matching/diffusion 等复杂动作生成模块;

  2. 优势条件策略提取方法,比传统 PPO/AWR 更稳定、适配性更强,无需复杂超参调优;

  3. 真实世界复杂任务验证,覆盖 deformable 物体、液体操作、多步骤组装,证明方法的实用性。

未来方向

  • 自动化数据收集:用高阶 VLA 实现场景重置、错误标注的自动化,减少人类干预;

  • 更智能的探索策略:突破 “贪心探索” 局限,主动探索未尝试的有效动作;

  • 在线实时更新:从 “批量迭代” 升级为 “实时学习”,边执行边优化。

论文出处

  • 标题:《π₀.₆⁎: a VLA That Learns From Experience》

  • 作者:Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, et al.(Physical Intelligence 团队)

  • 项目链接:https://pi.website/blog/pistar06

  • 版权声明:内容均来自上述论文,版权归原作者及相关团队所有,转载请注明出处。


关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读12
粉丝0
内容41