现有视觉 - 语言 - 动作(VLA)模型在机器人操纵场景落地难:要么无差别处理全量视觉输入导致计算冗余,要么指令与视觉语义对齐浅层化导致动作落地偏差。哈尔滨工业大学(深圳)团队提出SemanticVLA框架,通过 “语义对齐的稀疏化 + 增强” 设计,在 LIBERO 机器人操纵基准上成功率超 OpenVLA 21.1%,训练成本降低 3.0×,推理延迟降低 2.7×,刷新高效机器人操纵 SOTA!

VLA 模型的两大 “卡脖子” 痛点
当前 VLA 模型无法规模化落地,核心源于两个底层缺陷,所有结论均来自论文分析:
视觉感知冗余:通用视觉编码器(如 ViT)无差别处理所有像素,背景、噪声、无关干扰物占用大量计算资源,反而稀释任务关键线索(如目标物体、动作区域);
指令 - 视觉语义对齐浅:仅依赖通用跨模态对齐,无法捕捉机器人操纵中的精细语义关系(如 “把左边的方块放进盘子” 中的空间关系、物体属性),导致动作落地差。

SemanticVLA 核心设计:三层语义对齐的稀疏化 + 增强
SemanticVLA 围绕 “指令语义、视觉空间语义、控制动作语义” 三层互补语义设计,核心包含三大模块,所有设计细节均来自论文:
1. 语义引导双视觉剪枝(SD-Pruner):砍掉冗余,保留核心
ID-Pruner(适配 SigLIP):通过 “视觉→语言映射” 保留全局动作线索(解决 “知目标不知步骤”),“语言→视觉过滤” 强化局部语义锚点(解决 “看不见就做不到”),双路径精准过滤冗余视觉 token;
SA-Pruner(适配 DINOv2):将稠密几何特征聚合为紧凑的任务适配 token,通过 FiLM 层注入指令语义,补充 SigLIP 的空间信息短板。

2. 语义互补层级融合(SH-Fuser):语义 + 几何,1+1>2
Dense-Fuser:在浅、中、深三层 Transformer 块间交换 patch 级信息,让语义线索全程融合空间几何先验;
Sparse-Fuser:融合 ID-Pruner 和 SA-Pruner 输出的显著 token,最终将视觉 token 压缩 8-16 倍,仍完整保留任务关键的语义与几何信息。

3. 语义条件动作耦合(SA-Coupler):动作解码更高效、可解释
3-DoF 平移、3-DoF 旋转、1-DoF 夹爪控制,每类动作对应独立 token;
支持并行解码多步未来动作,大幅降低推理延迟,同时动作类型可解释性更强。
实验结果:效率 + 性能双碾压 SOTA
论文在仿真(LIBERO 基准)和真实世界(AgileX Cobot Magic 平台)开展全面实验,所有数据均来自论文官方实验结果:
1. 仿真实验(LIBERO 机器人操纵基准)
成功率:SemanticVLA 整体成功率达 97.7%,超 OpenVLA(76.5%)21.1%, even 轻量化版本 SemanticVLA-Lite 也达 95.8%(数据来源:论文 Table1);
效率:视觉 token 仅保留 1/8~1/16,动作 token 保留 3/7,训练成本降低 3.0×,推理延迟降低 2.7×,吞吐量达 89.9Hz(OpenVLA 仅 4.2Hz)(数据来源:论文 Table2)。

2. 真实世界实验(AgileX Cobot Magic 平台)
成功率:SemanticVLA 达 77.8%,超 OpenVLA-OFT(55.6%)22.2%,尤其在 T 恤折叠( deformable 物体操纵)任务中,Step3 成功率 8.0/15,是 OpenVLA-OFT(4.7/15)的 1.7 倍(数据来源:论文 Table3);
效率:推理吞吐量达 136.6Hz,是 OpenVLA(1.8Hz)的 75.9 倍,满足实时操纵需求(数据来源:论文 Table9)。

核心贡献与研究价值
SemanticVLA 的核心贡献可总结为三点,均来自论文官方定义:
提出SD-Pruner,首次针对 SigLIP/DINOv2 设计指令 - 几何双感知剪枝,解决视觉冗余问题;
提出SH-Fuser,实现语义 - 几何特征的层级融合,强化跨模态语义对齐;
提出SA-Coupler,结构化动作表示,兼顾推理效率与动作可解释性;
该框架为机器人操纵的规模化落地提供全新范式,同时为多模态语义对齐研究提供关键参考。
论文出处
标题:《SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation》
作者:Wei Li, Renshan Zhang, Rui Shao(哈尔滨工业大学(深圳))、Kaiwen Zhou(华为诺亚方舟实验室)等
开源地址:https://github.com/JiuTian-VL/SemanticVLA
发表版本:arXiv:2511.10518v1 [cs.CV]
版权声明:本文内容均来源于上述论文,版权归原作者及所属单位(哈尔滨工业大学(深圳)、华为诺亚方舟实验室)所有,转载请注明出处。
关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

