

最新分层VLA模型：使用失败的演示数据，也能优化VLA模型！

具身智能之心

2025-12-05

点击下方卡片，关注“具身智能之心”公众号

作者丨 Jeonguen Park等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

研究背景与核心问题

现有VLA模型的局限

视觉-语言-动作（VLA）模型是机器人操作任务的核心技术，传统模型依赖人类遥控收集的成功演示数据训练，但数据采集过程中自然产生的大量失败尝试（如抓取不稳定、碰撞等）常被当作噪声丢弃。这些失败数据蕴含着政策脆弱点的关键信息——揭示了哪些动作序列不可行、哪些场景下容易出错，而单纯依赖成功数据的模型难以应对复杂环境中的不确定性，在未见过的场景中鲁棒性大幅下降。

核心挑战与研究目标

核心挑战在于如何有效整合离线数据中的失败信号：模仿学习（IL）中直接惩罚易失败动作容易扭曲政策，而强化学习（RL）虽能通过奖励信号自然处理失败数据，但需要合适的框架承载。研究目标是构建一个分层VLA模型，将失败经验转化为结构化学习信号，通过显式的规划机制实现“失败感知推理”，在不改变机器人核心技能的前提下，提升复杂操作任务的成功率和鲁棒性。

模型架构：分层VLA框架（VINE）

VINE（Vision–Language–Action model Integrating Negative Experience）基于分层强化学习（HRL）构建，借鉴Kahneman的认知双系统理论，将高层推理与低层控制分离，形成两大核心模块：System 2（推理规划层）和System 1（动作执行层），整体架构如figure2所示。

核心设计理念

分层解耦：高层专注“做什么”（可行性规划），低层专注“怎么做”（动作执行），失败信号仅注入高层规划，不干扰底层核心技能。
失败感知：通过失败数据训练价值函数，让规划过程能预判高风险路径并提前剪枝。
离线训练：无需在线交互，完全基于离线遥控数据（含成功与失败轨迹）训练，落地成本低。

关键技术细节

问题形式化：基于SMDP的分层建模

模型将机器人与环境的交互抽象为半马尔可夫决策过程（SMDP）：

低层：标准马尔可夫决策过程（MDP），状态包含图像和本体感受，动作是连续控制指令。
高层：抽象后的节点（node）和边（edge）构成SMDP，节点是2D场景图（抽象世界状态），边是子目标（状态转移）。
目标函数：定义“到达-避免”目标，即优先到达目标集G（成功），避免进入失败集F（不可恢复状态），终止条件为首次进入G或F，奖励函数为稀疏终端奖励（成功时r=1，否则r=0）。

System 2：失败感知的树搜索规划

System 2作为元控制器，通过树搜索实现可行性导向的规划，核心组件包括三部分：

世界模型与候选生成

节点（状态抽象）：通过Grounding DINO检测目标框，结合Gemini-2.5-Flash生成2D场景图，编码物体、空间关系和语义信息，实现状态的紧凑表示。
边（子目标生成）：通过语言建模头自回归生成子目标（如“拿起勺子”），并通过束搜索和场景图一致性校验，确保生成的子目标符合任务语境。

失败感知价值函数

价值函数V(n)估算从节点n出发，先到达G再到达F的概率，公式如下：

其中和分别是到达目标集和失败集的首次击中时间。该函数通过成功和失败数据联合训练，采用非对称期望损失（IQL启发）避免价值高估，确保对失败路径的敏感。

树搜索算法

采用批量蒙特卡洛树搜索（MCTS），核心逻辑如Algorithm 1所示：

每次迭代选择前B个高价值前沿节点，生成k个候选子目标；
用价值函数评分候选节点，更新路径价值（Q值）；
迭代M次后，选择通往最高价值叶子节点的路径作为规划结果。

该过程通过失败数据训练的价值函数剪枝脆弱分支，优先选择高可行性路径。

System 1：子目标驱动的动作执行

System 1负责将高层规划的子目标序列转化为连续控制动作，仅基于成功数据训练，核心组件包括：

动作生成：采用流匹配模型，生成高频率动作块（action chunks），适应20Hz的控制需求，公式为：

其中是含噪声的动作，是预测的流场，u是目标速度。

终止检测：通过焦点损失训练终止头，判断子目标是否完成，当终止概率超过阈值时，切换到下一个子目标。

模型融合与训练

共享backbone：基于的多模态backbone，融合PaliGemma语言模型，通过LoRA适配器实现参数高效微调，共享感知-语言表示但解耦推理与控制。
分层数据集：System 2使用形式的高层数据，System 1使用形式的低层动作数据。

实验验证

实验设置

环境：仿真环境（插头插入、抽屉打包）和真实环境（海绵/毛巾收纳），均设置“见过”（训练集配置）和“未见过”（新配置、新物体）场景，如figure3、figure8所示。

数据集：人类遥控轨迹，含成功与失败标注，插头插入450条、抽屉打包240条、真实环境100条。
基线：统一VLA模型（OpenVLA-OFT、GR00T N1.5、）、VLM作为规划器（GPT-4o、Gemini-2.5-Flash）、VINE变体（无树搜索、无失败数据）。

核心结果

仿真实验（table1）

插头插入任务：VINE在未见过场景中成功率达0.422，比最佳基线（GPT-4o）提升26.7%；平均成功率0.611，领先所有基线。
抽屉打包任务：未见过场景成功率0.675，比GPT-4o（含失败示例）提升17.4%；平均成功率0.752，相对提升10.1%。
变体分析：树搜索和失败数据均为关键——无树搜索的VINE-Chain未见过场景成功率仅0.244，无失败数据的VINE-Tree提升至0.525，而两者结合的VINE-Full达到0.675。