解决VLA模型落地难，普通硬件也能跑！全透明全开源的高效VLA模型把推理成本砍掉76%- 大数跨境

量子位

2026-04-11

导读：全开源+极致高效！

A₁ VLA团队供稿 · 量子位

VLA模型的“动作头”拖累机器人实时反应？A₁模型提供高效优化方案。

具身智能领域迎来关键突破：视觉-语言-动作模型（VLA）作为开放世界机器人操作的核心范式，虽广泛应用，但其高计算成本与低实时性严重制约普通硬件落地。

2026年4月，中山大学与MBZUAI联合推出开源A₁模型，通过自适应推理技术实现低延迟、高成功率部署，显著降低推理成本，打破"强性能=高开销"困局。

A₁基于预训练视觉语言模型构建，采用预算感知自适应推理监测动作一致性，减少冗余计算；创新层间截断流匹配技术，跨层热启动加速主干网络与动作头。

实验证明，A₁在仿真与真实平台推理时延降低72%，计算量减少76.6%；RoboChallenge基准测试中平均成功率29.00%，优于π₀等开源模型。

VLA模型的真正瓶颈：动作头拖累实时性能

当前VLA模型依赖大型视觉语言模型（VLM）理解指令与场景，通过迭代式动作头输出控制信号。主干VLM参数量达数十亿，动作头迭代需10-20步，导致计算延迟高、部署成本昂贵。

即便优化主干网络，动作头仍成延时瓶颈，造成机器人反应迟缓、商业化落地困难。A₁聚焦核心问题：仅保留对动作决策有效的计算，实现主干与动作头联合加速。

△ A₁模型整体架构

A₁以Molmo-7B为VLM主干，搭载流匹配/MLP动作头，突破性在于自适应推理机制。

训练阶段每层VLM接入共享动作头；推理时逐层计算，一旦相邻层动作差异低于阈值立即终止传播，动态减少冗余计算量。

△ 自适应推理流程

传统方法提前退出反增动作头负荷。A₁压缩去噪步数，以上层输出作为下层热启动值，避免随机噪声重启，显著提升加速效率。

采用公开数据集预训练，结合自研真机轨迹领域适配，通过数据增强与均衡采样快速适配各类型机械臂，实现高泛化性。

仿真测试中，A₁保持高成功率同时大幅提升推理速度。真机部署于Franka、AgiBot等多平台，高效完成抓取、整理等任务，长时段操作稳定性与小样本学习能力优于主流开源模型。

RoboChallenge测评中，作为全栈开源方案，A₁在抽屉开启、精准放置等关键任务中超越知名基线，展现强实用性。

△ 长时序任务执行对比

△ 自适应推理可视化

A₁通过三大突破重塑行业认知：全链路加速主干与动作头、任务自适应算力分配、全栈开源可复现。使高性能VLA模型摆脱昂贵硬件束缚，为普通设备实时控制开辟新路径。

A₁将具身智能推向低成本、可落地阶段。当VLA模型无需盲目堆砌参数，机器人实用化进程将显著加速——优质机器人智能的核心在于"精准、高效、实用"。

A₁论文、代码及模型权重已全面开源。

论文标题：
A₁: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
论文链接：
https://arxiv.org/abs/2604.05672

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15000

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读176.1k

粉丝0

内容15.0k