现有 VLA 的三大 “高门槛” 痛点,让人望而却步
依赖超大 VLM backbone:主流 VLA 多采用 7B/13B 参数的 VLM,不仅推理慢,还占用大量显存,部署成本高;
训练成本极高:需要大规模机器人预训练数据(如 Open X-Embodiment),训练需多块高端 GPU,耗时数天;
VL 到动作的桥梁低效:现有方法要么只用 VLM 最后一层特征(语义偏强,缺乏细节),要么设计复杂接口,未能充分利用有效 VL 信息,导致动作生成精度不足。

VLA-Adapter 的破局:先找 “有效特征”,再建 “高效桥梁”
VLA-Adapter 的核心逻辑是 “先搞清楚什么有用,再设计极简架构”,分为两大关键步骤,所有设计均基于论文的系统实验发现:
1. 关键发现:揭开 VL 特征的 “有效密码”
发现 1:Raw 特征(VLM 原生特征)中,中间层比深层更有效—— 深层特征偏语义,中间层兼顾图像细节和文本对齐,更利于动作生成;
发现 2:ActionQuery 特征(额外学习的查询特征)中,深层比浅层更有效——ActionQuery 从零训练,深层能聚合更丰富的多模态信息;
发现 3:多层特征优于单一层—— 不仅提升性能,还无需手动选择最优层,通用性更强;
发现 4:Raw+ActionQuery 融合最优 —— 单一特征在部分硬任务中表现不足,融合后能互补优势(如中间层 Raw 在复杂任务中更优)。
2. 核心设计:Bridge Attention Policy(仅 97M 参数)
输入特征:融合 VLM 所有层的 Raw 特征(CtR)和 ActionQuery 特征(CtAQ),再加本体感受状态(Pt);
Bridge Attention 结构:包含两个交叉注意力(分别处理 Raw 和 ActionQuery)和一个自注意力(动作序列自身),用可学习参数 Ratio g 控制 Raw 特征的注入程度,避免无效信息干扰;
训练方式:端到端训练,Policy 从零开始训练,VLM 可冻结或微调,无需机器人预训练数据。

图 3 展示 VLA-Adapter 的完整流程:VLM 提取多层 Raw 和 ActionQuery 特征,Policy 通过 Bridge Attention 融合这些特征生成动作,右侧标注四种特征条件的对比,红色框突出 “多层融合” 的核心设计。

实验验证:tiny-scale 模型,SOTA 级表现,成本骤降
论文在仿真(LIBERO、CALVIN)和真实世界三大场景验证,所有数据均来自论文实验部分,性能全面碾压基线:
1. 仿真实验:0.5B 参数干翻 7B 模型
LIBERO 基准(4 大套件):
-
VLA-Adapter 平均成功率 97.3%,其中 LIBERO-Long(长时任务)达 95.0%,比同 backbone 的 OpenVLA-OFT 高 9.2%,比 7B 级的 π₀(94.2%)、SmolVLA(88.8%)更优;
轻量化版本 VLA-Adapter-Pro 更夸张,Spatial 套件成功率 99.6%,Object 套件 99.6%,全面刷新 SOTA(Table 5)。

CALVIN ABC→D(零样本泛化):
-
连续完成 5 个任务的平均长度达 4.42,远超 7B 级 OpenVLA-OFT(4.10)和 tiny-scale 的 Seer(4.28);
单个任务成功率 99.1%,连续任务完成度行业领先(Table 6)。

推理速度:吞吐量达 219.2Hz, latency 仅 0.0365 秒,是 OpenVLA-OFT(71.4Hz)的 3 倍,OpenVLA(0.2396 秒)的 6.5 倍(Table 4)。

2. 真实世界实验:泛化能力拉满
平均成功率远超 ACT 和 OFT-style 基线,尤其在长时任务(如 “勺子放杯子→杯子放盘子”)中表现稳定;
物体位置随机化(分布偏移)时仍保持高成功率,泛化能力突出。

图 6 展示真实世界实验平台:6-DOF 机械臂 + 双目相机,红色框标注 “多类型任务场景”,涵盖简单拾取到长时复杂任务,验证模型的实际可用性。

3. 训练成本:单消费级 GPU 即可搞定
训练设备:单块消费级 GPU(无需 H100/A100);
训练时间:仅 8 小时,是传统 VLA 模型(数天)的 1/6;
可扩展性:VLM 冻结时,仅训练 ActionQuery 和 Policy,显存占用更低,部署更灵活(Table 3 显示冻结 VLM 仍达 86.4% 成功率)。
总结
核心贡献
首次系统分析 VL 到动作的桥梁机制,给出 VLA 设计的关键发现(哪些特征更有效);
提出轻量级 Bridge Attention Policy,实现 VL 特征到动作的高效映射,仅 97M 参数;
实现 tiny-scale VLA 的 SOTA 性能:0.5B 参数、无机器人预训练、单 GPU 8 小时训练、推理速度最快;
大幅降低 VLA 部署门槛,推动普通研究者和工业界的应用。
论文出处
标题:《VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model》
作者:Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, et al.
单位:Beijing University of Posts and Telecommunications, Westlake University, Zhejiang University, OpenHelix Team 等
项目链接:https://vla-adapter.github.io/(含代码、训练模型、可视化结果)
版权声明:内容均来自上述论文,版权归原作者及相关单位所有,转载请注明出处。

