大数跨境
0
0

最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!

最新分层VLA模型:使用失败的演示数据,也能优化VLA模型! 具身智能之心
2025-12-05
1

点击下方卡片,关注“具身智能之心”公众号


作者丨 Jeonguen Park等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

研究背景与核心问题

现有VLA模型的局限

视觉-语言-动作(VLA)模型是机器人操作任务的核心技术,传统模型依赖人类遥控收集的成功演示数据训练,但数据采集过程中自然产生的大量失败尝试(如抓取不稳定、碰撞等)常被当作噪声丢弃。这些失败数据蕴含着政策脆弱点的关键信息——揭示了哪些动作序列不可行、哪些场景下容易出错,而单纯依赖成功数据的模型难以应对复杂环境中的不确定性,在未见过的场景中鲁棒性大幅下降。

核心挑战与研究目标

核心挑战在于如何有效整合离线数据中的失败信号:模仿学习(IL)中直接惩罚易失败动作容易扭曲政策,而强化学习(RL)虽能通过奖励信号自然处理失败数据,但需要合适的框架承载。研究目标是构建一个分层VLA模型,将失败经验转化为结构化学习信号,通过显式的规划机制实现“失败感知推理”,在不改变机器人核心技能的前提下,提升复杂操作任务的成功率和鲁棒性。

模型架构:分层VLA框架(VINE)

VINE(Vision–Language–Action model Integrating Negative Experience)基于分层强化学习(HRL)构建,借鉴Kahneman的认知双系统理论,将高层推理与低层控制分离,形成两大核心模块:System 2(推理规划层)和System 1(动作执行层),整体架构如figure2所示。

核心设计理念

  • 分层解耦:高层专注“做什么”(可行性规划),低层专注“怎么做”(动作执行),失败信号仅注入高层规划,不干扰底层核心技能。
  • 失败感知:通过失败数据训练价值函数,让规划过程能预判高风险路径并提前剪枝。
  • 离线训练:无需在线交互,完全基于离线遥控数据(含成功与失败轨迹)训练,落地成本低。

关键技术细节

问题形式化:基于SMDP的分层建模

模型将机器人与环境的交互抽象为半马尔可夫决策过程(SMDP):

  • 低层:标准马尔可夫决策过程(MDP),状态包含图像和本体感受,动作是连续控制指令。
  • 高层:抽象后的节点(node)和边(edge)构成SMDP,节点是2D场景图(抽象世界状态),边是子目标(状态转移)。
  • 目标函数:定义“到达-避免”目标,即优先到达目标集G(成功),避免进入失败集F(不可恢复状态),终止条件为首次进入G或F,奖励函数为稀疏终端奖励(成功时r=1,否则r=0)。

System 2:失败感知的树搜索规划

System 2作为元控制器,通过树搜索实现可行性导向的规划,核心组件包括三部分:

  1. 世界模型与候选生成

    • 节点(状态抽象):通过Grounding DINO检测目标框,结合Gemini-2.5-Flash生成2D场景图,编码物体、空间关系和语义信息,实现状态的紧凑表示。
    • 边(子目标生成):通过语言建模头自回归生成子目标(如“拿起勺子”),并通过束搜索和场景图一致性校验,确保生成的子目标符合任务语境。
  2. 失败感知价值函数

价值函数V(n)估算从节点n出发,先到达G再到达F的概率,公式如下:

其中 分别是到达目标集和失败集的首次击中时间。该函数通过成功和失败数据联合训练,采用非对称期望损失(IQL启发)避免价值高估,确保对失败路径的敏感。

  1. 树搜索算法

采用批量蒙特卡洛树搜索(MCTS),核心逻辑如Algorithm 1所示:

  • 每次迭代选择前B个高价值前沿节点,生成k个候选子目标;
  • 用价值函数评分候选节点,更新路径价值(Q值);
  • 迭代M次后,选择通往最高价值叶子节点的路径作为规划结果。

该过程通过失败数据训练的价值函数剪枝脆弱分支,优先选择高可行性路径。

System 1:子目标驱动的动作执行

System 1负责将高层规划的子目标序列转化为连续控制动作,仅基于成功数据训练,核心组件包括:

  1. 动作生成:采用流匹配模型,生成高频率动作块(action chunks),适应20Hz的控制需求,公式为:

其中 是含噪声的动作, 是预测的流场,u是目标速度。

  1. 终止检测:通过焦点损失训练终止头,判断子目标是否完成,当终止概率超过阈值 时,切换到下一个子目标。

模型融合与训练

  • 共享backbone:基于 的多模态backbone,融合PaliGemma语言模型,通过LoRA适配器实现参数高效微调,共享感知-语言表示但解耦推理与控制。

  • 分层数据集:System 2使用 形式的高层数据,System 1使用 形式的低层动作数据。

实验验证

实验设置

  • 环境:仿真环境(插头插入、抽屉打包)和真实环境(海绵/毛巾收纳),均设置“见过”(训练集配置)和“未见过”(新配置、新物体)场景,如figure3、figure8所示。
  • 数据集:人类遥控轨迹,含成功与失败标注,插头插入450条、抽屉打包240条、真实环境100条。
  • 基线:统一VLA模型(OpenVLA-OFT、GR00T N1.5、 )、VLM作为规划器(GPT-4o、Gemini-2.5-Flash)、VINE变体(无树搜索、无失败数据)。

核心结果

  1. 仿真实验(table1)
  • 插头插入任务:VINE在未见过场景中成功率达0.422,比最佳基线(GPT-4o)提升26.7%;平均成功率0.611,领先所有基线。
  • 抽屉打包任务:未见过场景成功率0.675,比GPT-4o(含失败示例)提升17.4%;平均成功率0.752,相对提升10.1%。
  • 变体分析:树搜索和失败数据均为关键——无树搜索的VINE-Chain未见过场景成功率仅0.244,无失败数据的VINE-Tree提升至0.525,而两者结合的VINE-Full达到0.675。
  1. 测试时扩展性(figure6)

调整规划器每步扩展宽度K(候选子目标数量),未见过场景的成功率随K增加而提升(K=4时达0.444), latency呈线性增长,体现“计算-精度”的良性权衡。

  1. 真实世界实验(table3)
  • 见过场景:海绵收纳成功率0.75,毛巾收纳0.55,均优于 (0.60、0.45)。
  • 未见过场景:海绵收纳0.65,毛巾收纳0.55,大幅领先 (0.55、0.30),尤其在物体属性变化时鲁棒性突出。
  1. 定性结果(figure4、figure9)
  • 抽屉打包任务中,基线模型直接尝试放置物体导致碰撞,而VINE规划“移开障碍物→放置→关闭”的多步路径。
  • 真实毛巾收纳中,模型优先选择“折叠→放入→关闭”策略,因预测该路径成功率更高。

消融实验

  • 树搜索算法:MCTS比DFS在未见过场景成功率高3.1%,且 latency减少9.7秒(figure15)。
  • backbone融合: 与PaliGemma的插值权重λₘ=0.6时性能最优,见过场景成功率0.800,未见过0.422(table5),证明动作先验与语言推理的平衡重要性。
  • 重规划模块:添加不确定性触发的重规划后,抽屉打包未见过场景成功率从0.675提升至0.740(figure10),缓解了执行过程中的状态漂移问题。

讨论与局限

核心优势

  • 失败数据的有效利用:将失败从“噪声”转化为“可行性约束”,通过价值函数直接指导规划,大幅提升泛化能力。
  • 分层架构的灵活性:高层规划可通过调整搜索宽度适应任务复杂度,低层执行保持稳定,无需全模型重训。
  • 离线训练的实用性:完全基于现有遥控数据,无需在线交互,降低机器人部署的安全风险和成本。

现存局限

  1. 缺乏实时反馈:规划在子目标粒度进行,执行过程中无中途反馈,动态场景中可能积累误差。
  2. 低层控制器偏保守:仅用成功数据训练,难以应对执行中的扰动和偏差。
  3. 状态抽象不足:2D场景图忽略几何度量、接触力等信息,在遮挡或摩擦主导的任务中可能误判可行性。

改进方向

  • 引入不确定性监测的实时重规划(已初步验证有效性)。
  • 结合失败数据微调低层控制器,提升容错能力。
  • 增强状态表示,融入3D几何和接触动态信息。

核心贡献

  1. 提出融合失败经验的分层VLA框架,通过HRL实现推理与执行的解耦,首次将失败数据作为结构化规划信号。
  2. 设计基于2D场景图和树搜索的失败感知规划器,通过价值函数量化路径可行性,实现前瞻性风险规避。
  3. 仿真与真实环境的全面验证,证明失败数据和分层推理对提升鲁棒性的关键作用,为VLA模型从“广泛胜任”走向“稳健执行”提供新范式。

参考:

[1]Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

【声明】内容源于网络
0
0
具身智能之心
与世界交互,更进一步。具身智能之心是国内具身与机器人领域的专业技术平台,集企业咨询、在线教育、展会服务、线下培训、硬件研发、技术方案为一体。
内容 1142
粉丝 0
具身智能之心 与世界交互,更进一步。具身智能之心是国内具身与机器人领域的专业技术平台,集企业咨询、在线教育、展会服务、线下培训、硬件研发、技术方案为一体。
总阅读182
粉丝0
内容1.1k