大数跨境

解决VLA模型落地难,普通硬件也能跑!全透明全开源的高效VLA模型把推理成本砍掉76%

解决VLA模型落地难,普通硬件也能跑!全透明全开源的高效VLA模型把推理成本砍掉76% 量子位
2026-04-11
21
导读:全开源+极致高效!

A₁ VLA团队 供稿 · 量子位

VLA模型的“动作头”拖累机器人实时反应?A₁模型提供高效优化方案。

具身智能领域迎来关键突破:视觉-语言-动作模型(VLA)作为开放世界机器人操作的核心范式,虽广泛应用,但其高计算成本与低实时性严重制约普通硬件落地。

2026年4月,中山大学与MBZUAI联合推出开源A₁模型,通过自适应推理技术实现低延迟、高成功率部署,显著降低推理成本,打破"强性能=高开销"困局。

A₁基于预训练视觉语言模型构建,采用预算感知自适应推理监测动作一致性,减少冗余计算;创新层间截断流匹配技术,跨层热启动加速主干网络与动作头。

实验证明,A₁在仿真与真实平台推理时延降低72%,计算量减少76.6%;RoboChallenge基准测试中平均成功率29.00%,优于π₀等开源模型。

VLA模型的真正瓶颈:动作头拖累实时性能

当前VLA模型依赖大型视觉语言模型(VLM)理解指令与场景,通过迭代式动作头输出控制信号。主干VLM参数量达数十亿,动作头迭代需10-20步,导致计算延迟高、部署成本昂贵。

即便优化主干网络,动作头仍成延时瓶颈,造成机器人反应迟缓、商业化落地困难。A₁聚焦核心问题:仅保留对动作决策有效的计算,实现主干与动作头联合加速。

A₁模型整体架构

核心创新:自适应截断与层间加速双引擎

A₁以Molmo-7B为VLM主干,搭载流匹配/MLP动作头,突破性在于自适应推理机制。

动作一致性提前退出

训练阶段每层VLM接入共享动作头;推理时逐层计算,一旦相邻层动作差异低于阈值立即终止传播,动态减少冗余计算量。

自适应推理流程

层间截断流匹配

传统方法提前退出反增动作头负荷。A₁压缩去噪步数,以上层输出作为下层热启动值,避免随机噪声重启,显著提升加速效率。

多机器人泛化预训练

采用公开数据集预训练,结合自研真机轨迹领域适配,通过数据增强与均衡采样快速适配各类型机械臂,实现高泛化性。

效果验证:仿真与真机性能双突破

仿真测试中,A₁保持高成功率同时大幅提升推理速度。真机部署于Franka、AgiBot等多平台,高效完成抓取、整理等任务,长时段操作稳定性与小样本学习能力优于主流开源模型。

RoboChallenge测评中,作为全栈开源方案,A₁在抽屉开启、精准放置等关键任务中超越知名基线,展现强实用性。

长时序任务执行对比

自适应推理可视化

技术价值:高性能不必依赖高成本

A₁通过三大突破重塑行业认知:全链路加速主干与动作头、任务自适应算力分配、全栈开源可复现。使高性能VLA模型摆脱昂贵硬件束缚,为普通设备实时控制开辟新路径。

未来展望:通用化与实用性并进

A₁将具身智能推向低成本、可落地阶段。当VLA模型无需盲目堆砌参数,机器人实用化进程将显著加速——优质机器人智能的核心在于"精准、高效、实用"。

A₁论文、代码及模型权重已全面开源。

论文标题:
A₁: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
论文链接:
https://arxiv.org/abs/2604.05672

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15000
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读176.1k
粉丝0
内容15.0k