大数跨境
0
0

【学术分享】语义能解决对齐问题吗?

【学术分享】语义能解决对齐问题吗? 具身智能制造
2025-12-03
2
导读:通过 “语义对齐的稀疏化 + 增强” 设计,在 LIBERO 机器人操纵基准上成功率超 OpenVLA 21.1%,训练成本降低 3.0×,推理延迟降低 2.7×,刷新高效机器人操纵 SOTA!

现有视觉 - 语言 - 动作(VLA)模型在机器人操纵场景落地难:要么无差别处理全量视觉输入导致计算冗余,要么指令与视觉语义对齐浅层化导致动作落地偏差。哈尔滨工业大学(深圳)团队提出SemanticVLA框架,通过 “语义对齐的稀疏化 + 增强” 设计,在 LIBERO 机器人操纵基准上成功率超 OpenVLA 21.1%,训练成本降低 3.0×,推理延迟降低 2.7×,刷新高效机器人操纵 SOTA!




Fig.1 直观对比核心差异:OpenVLA 直接编码全量视觉输入,冗余且语义对齐弱(左);SemanticVLA 通过指令引导的视觉稀疏化、感知 - 动作精准对应,实现高效并行解码(右),红色标注 “语义对齐稀疏化” 是核心突破点。



01

VLA 模型的两大 “卡脖子” 痛点

当前 VLA 模型无法规模化落地,核心源于两个底层缺陷,所有结论均来自论文分析:


  1. 视觉感知冗余:通用视觉编码器(如 ViT)无差别处理所有像素,背景、噪声、无关干扰物占用大量计算资源,反而稀释任务关键线索(如目标物体、动作区域);

  2. 指令 - 视觉语义对齐浅:仅依赖通用跨模态对齐,无法捕捉机器人操纵中的精细语义关系(如 “把左边的方块放进盘子” 中的空间关系、物体属性),导致动作落地差。




Fig.2 展示 SemanticVLA 的三大核心模块:SD-Pruner(语义引导双视觉剪枝)、SH-Fuser(语义互补层级融合)、SA-Coupler(语义条件动作耦合),红色标注模块直接对应上述两大痛点,实现 “稀疏化降冗余 + 增强语义对齐” 双目标。


02

SemanticVLA 核心设计:三层语义对齐的稀疏化 + 增强

SemanticVLA 围绕 “指令语义、视觉空间语义、控制动作语义” 三层互补语义设计,核心包含三大模块,所有设计细节均来自论文:

1. 语义引导双视觉剪枝(SD-Pruner):砍掉冗余,保留核心

针对 SigLIP(擅长指令接地)和 DINOv2(擅长空间几何)的特性,分别设计剪枝策略:

  • ID-Pruner(适配 SigLIP):通过 “视觉→语言映射” 保留全局动作线索(解决 “知目标不知步骤”),“语言→视觉过滤” 强化局部语义锚点(解决 “看不见就做不到”),双路径精准过滤冗余视觉 token;

  • SA-Pruner(适配 DINOv2):将稠密几何特征聚合为紧凑的任务适配 token,通过 FiLM 层注入指令语义,补充 SigLIP 的空间信息短板。




Fig.3 左侧清晰展示 ID-Pruner 的双路径剪枝流程(视觉→语言映射 + 语言→视觉过滤),右侧为 SA-Coupler 的动作拆解逻辑,红色标注 “全局动作线索”“局部语义锚点”,明确剪枝核心目标。

2. 语义互补层级融合(SH-Fuser):语义 + 几何,1+1>2

传统 VLA 模型仅做后期特征拼接,SH-Fuser 分两层深度融合 SigLIP(语义)和 DINOv2(几何)特征:

  • Dense-Fuser:在浅、中、深三层 Transformer 块间交换 patch 级信息,让语义线索全程融合空间几何先验;

  • Sparse-Fuser:融合 ID-Pruner 和 SA-Pruner 输出的显著 token,最终将视觉 token 压缩 8-16 倍,仍完整保留任务关键的语义与几何信息。




Fig.5 直观验证剪枝 + 融合效果:红色标注 “V-to-L Tokens(全局动作线索)”“L-to-V Tokens(局部语义锚点)”“Aggregation Tokens(几何特征)”,三者通过 SH-Fuser 融合后,仅保留核心信息,无冗余像素干扰。

3. 语义条件动作耦合(SA-Coupler):动作解码更高效、可解释

摒弃传统 “观测→7 自由度” 的离散映射,将机器人动作拆解为三类语义化动作类型,实现模块化解码:

  • 3-DoF 平移、3-DoF 旋转、1-DoF 夹爪控制,每类动作对应独立 token;

  • 支持并行解码多步未来动作,大幅降低推理延迟,同时动作类型可解释性更强。

03

实验结果:效率 + 性能双碾压 SOTA

论文在仿真(LIBERO 基准)和真实世界(AgileX Cobot Magic 平台)开展全面实验,所有数据均来自论文官方实验结果:

1. 仿真实验(LIBERO 机器人操纵基准)

  • 成功率:SemanticVLA 整体成功率达 97.7%,超 OpenVLA(76.5%)21.1%, even 轻量化版本 SemanticVLA-Lite 也达 95.8%(数据来源:论文 Table1);

  • 效率:视觉 token 仅保留 1/8~1/16,动作 token 保留 3/7,训练成本降低 3.0×,推理延迟降低 2.7×,吞吐量达 89.9Hz(OpenVLA 仅 4.2Hz)(数据来源:论文 Table2)。




Fig.7 展示 SemanticVLA 在 LIBERO-Spatial(空间推理)、Object(物体泛化)、Goal(目标理解)、Long(长程任务)四大套件的执行效果,红色标注 Long 任务(最复杂)成功率 94.8%,远超 OpenVLA-OFT 等基线。

2. 真实世界实验(AgileX Cobot Magic 平台)

在物体放置、抽屉操纵、T 恤折叠三大长程任务中:

  • 成功率:SemanticVLA 达 77.8%,超 OpenVLA-OFT(55.6%)22.2%,尤其在 T 恤折叠( deformable 物体操纵)任务中,Step3 成功率 8.0/15,是 OpenVLA-OFT(4.7/15)的 1.7 倍(数据来源:论文 Table3);

  • 效率:推理吞吐量达 136.6Hz,是 OpenVLA(1.8Hz)的 75.9 倍,满足实时操纵需求(数据来源:论文 Table9)。




Fig.4 展示 SemanticVLA 完成 “玩具放置→抽屉操纵→T 恤折叠” 的关键步骤,红色标注每一步的语义对齐动作(如 “Bear→Plate”“Open Drawer”),全程无冗余操作,验证真实场景适用性。



04

核心贡献与研究价值

SemanticVLA 的核心贡献可总结为三点,均来自论文官方定义:


  1. 提出SD-Pruner,首次针对 SigLIP/DINOv2 设计指令 - 几何双感知剪枝,解决视觉冗余问题;

  2. 提出SH-Fuser,实现语义 - 几何特征的层级融合,强化跨模态语义对齐;

  3. 提出SA-Coupler,结构化动作表示,兼顾推理效率与动作可解释性;


    该框架为机器人操纵的规模化落地提供全新范式,同时为多模态语义对齐研究提供关键参考。

论文出处

  • 标题:《SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation》

  • 作者:Wei Li, Renshan Zhang, Rui Shao(哈尔滨工业大学(深圳))、Kaiwen Zhou(华为诺亚方舟实验室)等

  • 开源地址:https://github.com/JiuTian-VL/SemanticVLA

  • 发表版本:arXiv:2511.10518v1 [cs.CV]

  • 版权声明:本文内容均来源于上述论文,版权归原作者及所属单位(哈尔滨工业大学(深圳)、华为诺亚方舟实验室)所有,转载请注明出处。

关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读21
粉丝0
内容41