大数跨境
0
0

单 GPU 8 小时训练 SOTA VLA!VLA-Adapter 用 0.5B 参数碾压 7B 模型,大幅降低部署门槛

单 GPU 8 小时训练 SOTA VLA!VLA-Adapter 用 0.5B 参数碾压 7B 模型,大幅降低部署门槛 具身智能制造
2025-11-23
0
导读:在机器人视觉 - 语言 - 动作(VLA)领域,“大模型 = 高性能” 的固有认知被打破了!
在机器人视觉 - 语言 - 动作(VLA)领域,“大模型 = 高性能” 的固有认知被打破了!最新研究证明:无需依赖数十亿参数的大 VLM,不用大规模机器人数据预训练,甚至单块消费级 GPU 训练 8 小时,就能打造出性能超 SOTA 的 VLA 模型。

发表于 arXiv(投稿顶会)的论文《VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model》提出VLA-Adapter 框架,通过系统分析 VL 到动作的桥梁机制,设计轻量级 Bridge Attention Policy,仅用 0.5B 参数的 VLM backbone,就在 LIBERO、CALVIN 等基准上超越众多 7B 级模型,推理吞吐量达 219.2Hz(当前最快),真实世界任务成功率领先基线,彻底降低了 VLA 模型的训练和部署门槛。



图 1 直观展示 VLA-Adapter 的核心优势:参数规模最小(0.5B)、训练成本最低(单 GPU 8 小时)、推理速度最快(219.2Hz),同时性能达 SOTA 级别,红色标注 “tiny-scale + 高性能” 的核心突破。



01

现有 VLA 的三大 “高门槛” 痛点,让人望而却步

论文直指当前 VLA 模型的核心瓶颈,这些问题让普通研究者和开发者难以触及:
  1. 依赖超大 VLM backbone:主流 VLA 多采用 7B/13B 参数的 VLM,不仅推理慢,还占用大量显存,部署成本高;

  2. 训练成本极高:需要大规模机器人预训练数据(如 Open X-Embodiment),训练需多块高端 GPU,耗时数天;

  3. VL 到动作的桥梁低效:现有方法要么只用 VLM 最后一层特征(语义偏强,缺乏细节),要么设计复杂接口,未能充分利用有效 VL 信息,导致动作生成精度不足。

图 2 展示现有三种桥梁范式的局限:要么只用单层特征,要么接口复杂,红色箭头标注 “信息利用不充分” 的核心问题,为 VLA-Adapter 的创新铺垫。


02

VLA-Adapter 的破局:先找 “有效特征”,再建 “高效桥梁”

VLA-Adapter 的核心逻辑是 “先搞清楚什么有用,再设计极简架构”,分为两大关键步骤,所有设计均基于论文的系统实验发现:

1. 关键发现:揭开 VL 特征的 “有效密码”

论文通过大量实验,首次明确哪些 VL 特征对动作生成至关重要(基于 LIBERO-Long 基准):

  • 发现 1:Raw 特征(VLM 原生特征)中,中间层比深层更有效—— 深层特征偏语义,中间层兼顾图像细节和文本对齐,更利于动作生成;

  • 发现 2:ActionQuery 特征(额外学习的查询特征)中,深层比浅层更有效——ActionQuery 从零训练,深层能聚合更丰富的多模态信息;

  • 发现 3:多层特征优于单一层—— 不仅提升性能,还无需手动选择最优层,通用性更强;

  • 发现 4:Raw+ActionQuery 融合最优 —— 单一特征在部分硬任务中表现不足,融合后能互补优势(如中间层 Raw 在复杂任务中更优)。

2. 核心设计:Bridge Attention Policy(仅 97M 参数)

基于上述发现,VLA-Adapter 设计轻量级 Policy,用 Bridge Attention 自主注入最优 VL 特征到动作空间:

  • 输入特征:融合 VLM 所有层的 Raw 特征(CtR)和 ActionQuery 特征(CtAQ),再加本体感受状态(Pt);

  • Bridge Attention 结构:包含两个交叉注意力(分别处理 Raw 和 ActionQuery)和一个自注意力(动作序列自身),用可学习参数 Ratio g 控制 Raw 特征的注入程度,避免无效信息干扰;

  • 训练方式:端到端训练,Policy 从零开始训练,VLM 可冻结或微调,无需机器人预训练数据。


图 3 展示 VLA-Adapter 的完整流程:VLM 提取多层 Raw 和 ActionQuery 特征,Policy 通过 Bridge Attention 融合这些特征生成动作,右侧标注四种特征条件的对比,红色框突出 “多层融合” 的核心设计。






图 5 拆解 Bridge Attention:三个注意力分支分别处理 Raw 特征、ActionQuery + 本体感受、动作自注意力,可学习 Ratio g 控制 Raw 注入程度,红色标注 “特征融合” 的关键作用,Policy 总参数仅 97M。
03

实验验证:tiny-scale 模型,SOTA 级表现,成本骤降


论文在仿真(LIBERO、CALVIN)和真实世界三大场景验证,所有数据均来自论文实验部分,性能全面碾压基线:

1. 仿真实验:0.5B 参数干翻 7B 模型

  • LIBERO 基准(4 大套件)

    • VLA-Adapter 平均成功率 97.3%,其中 LIBERO-Long(长时任务)达 95.0%,比同 backbone 的 OpenVLA-OFT 高 9.2%,比 7B 级的 π₀(94.2%)、SmolVLA(88.8%)更优;

    • 轻量化版本 VLA-Adapter-Pro 更夸张,Spatial 套件成功率 99.6%,Object 套件 99.6%,全面刷新 SOTA(Table 5)。

  • CALVIN ABC→D(零样本泛化)

    • 连续完成 5 个任务的平均长度达 4.42,远超 7B 级 OpenVLA-OFT(4.10)和 tiny-scale 的 Seer(4.28);

    • 单个任务成功率 99.1%,连续任务完成度行业领先(Table 6)。

  • 推理速度:吞吐量达 219.2Hz, latency 仅 0.0365 秒,是 OpenVLA-OFT(71.4Hz)的 3 倍,OpenVLA(0.2396 秒)的 6.5 倍(Table 4)。

2. 真实世界实验:泛化能力拉满

采用 6-DOF Synria Alicia-D 机器人,在四类任务(拾取放置、侧向移动、堆叠、长时复杂任务)中测试:

  • 平均成功率远超 ACT 和 OFT-style 基线,尤其在长时任务(如 “勺子放杯子→杯子放盘子”)中表现稳定;

  • 物体位置随机化(分布偏移)时仍保持高成功率,泛化能力突出。


图 6 展示真实世界实验平台:6-DOF 机械臂 + 双目相机,红色框标注 “多类型任务场景”,涵盖简单拾取到长时复杂任务,验证模型的实际可用性。






图 7 清晰对比 VLA-Adapter 与基线在真实世界任务的表现,红色柱代表 VLA-Adapter,所有任务成功率均领先,箭头标注 “长时任务优势显著”。

3. 训练成本:单消费级 GPU 即可搞定

  • 训练设备:单块消费级 GPU(无需 H100/A100);

  • 训练时间:仅 8 小时,是传统 VLA 模型(数天)的 1/6;

  • 可扩展性:VLM 冻结时,仅训练 ActionQuery 和 Policy,显存占用更低,部署更灵活(Table 3 显示冻结 VLM 仍达 86.4% 成功率)。




04

总结

核心贡献

  1. 首次系统分析 VL 到动作的桥梁机制,给出 VLA 设计的关键发现(哪些特征更有效);

  2. 提出轻量级 Bridge Attention Policy,实现 VL 特征到动作的高效映射,仅 97M 参数;

  3. 实现 tiny-scale VLA 的 SOTA 性能:0.5B 参数、无机器人预训练、单 GPU 8 小时训练、推理速度最快;

  4. 大幅降低 VLA 部署门槛,推动普通研究者和工业界的应用。

论文出处

  • 标题:《VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model》

  • 作者:Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, et al.

  • 单位:Beijing University of Posts and Telecommunications, Westlake University, Zhejiang University, OpenHelix Team 等

  • 项目链接:https://vla-adapter.github.io/(含代码、训练模型、可视化结果)

  • 版权声明:内容均来自上述论文,版权归原作者及相关单位所有,转载请注明出处。


关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读12
粉丝0
内容41