

【学术分享】语义能解决对齐问题吗？

具身智能制造

2025-12-03

导读：通过 “语义对齐的稀疏化 + 增强” 设计，在 LIBERO 机器人操纵基准上成功率超 OpenVLA 21.1%，训练成本降低 3.0×，推理延迟降低 2.7×，刷新高效机器人操纵 SOTA！

现有视觉 - 语言 - 动作（VLA）模型在机器人操纵场景落地难：要么无差别处理全量视觉输入导致计算冗余，要么指令与视觉语义对齐浅层化导致动作落地偏差。哈尔滨工业大学（深圳）团队提出SemanticVLA框架，通过 “语义对齐的稀疏化 + 增强” 设计，在 LIBERO 机器人操纵基准上成功率超 OpenVLA 21.1%，训练成本降低 3.0×，推理延迟降低 2.7×，刷新高效机器人操纵 SOTA！

Fig.1 直观对比核心差异：OpenVLA 直接编码全量视觉输入，冗余且语义对齐弱（左）；SemanticVLA 通过指令引导的视觉稀疏化、感知 - 动作精准对应，实现高效并行解码（右），红色标注 “语义对齐稀疏化” 是核心突破点。

VLA 模型的两大 “卡脖子” 痛点

当前 VLA 模型无法规模化落地，核心源于两个底层缺陷，所有结论均来自论文分析：

视觉感知冗余：通用视觉编码器（如 ViT）无差别处理所有像素，背景、噪声、无关干扰物占用大量计算资源，反而稀释任务关键线索（如目标物体、动作区域）；
指令 - 视觉语义对齐浅：仅依赖通用跨模态对齐，无法捕捉机器人操纵中的精细语义关系（如 “把左边的方块放进盘子” 中的空间关系、物体属性），导致动作落地差。

Fig.2 展示 SemanticVLA 的三大核心模块：SD-Pruner（语义引导双视觉剪枝）、SH-Fuser（语义互补层级融合）、SA-Coupler（语义条件动作耦合），红色标注模块直接对应上述两大痛点，实现 “稀疏化降冗余 + 增强语义对齐” 双目标。

SemanticVLA 核心设计：三层语义对齐的稀疏化 + 增强

SemanticVLA 围绕 “指令语义、视觉空间语义、控制动作语义” 三层互补语义设计，核心包含三大模块，所有设计细节均来自论文：

1. 语义引导双视觉剪枝（SD-Pruner）：砍掉冗余，保留核心

针对 SigLIP（擅长指令接地）和 DINOv2（擅长空间几何）的特性，分别设计剪枝策略：

ID-Pruner（适配 SigLIP）：通过 “视觉→语言映射” 保留全局动作线索（解决 “知目标不知步骤”），“语言→视觉过滤” 强化局部语义锚点（解决 “看不见就做不到”），双路径精准过滤冗余视觉 token；
SA-Pruner（适配 DINOv2）：将稠密几何特征聚合为紧凑的任务适配 token，通过 FiLM 层注入指令语义，补充 SigLIP 的空间信息短板。

Fig.3 左侧清晰展示 ID-Pruner 的双路径剪枝流程（视觉→语言映射 + 语言→视觉过滤），右侧为 SA-Coupler 的动作拆解逻辑，红色标注 “全局动作线索”“局部语义锚点”，明确剪枝核心目标。

2. 语义互补层级融合（SH-Fuser）：语义 + 几何，1+1>2

传统 VLA 模型仅做后期特征拼接，SH-Fuser 分两层深度融合 SigLIP（语义）和 DINOv2（几何）特征：

Dense-Fuser：在浅、中、深三层 Transformer 块间交换 patch 级信息，让语义线索全程融合空间几何先验；
Sparse-Fuser：融合 ID-Pruner 和 SA-Pruner 输出的显著 token，最终将视觉 token 压缩 8-16 倍，仍完整保留任务关键的语义与几何信息。

Fig.5 直观验证剪枝 + 融合效果：红色标注 “V-to-L Tokens（全局动作线索）”“L-to-V Tokens（局部语义锚点）”“Aggregation Tokens（几何特征）”，三者通过 SH-Fuser 融合后，仅保留核心信息，无冗余像素干扰。

3. 语义条件动作耦合（SA-Coupler）：动作解码更高效、可解释

摒弃传统 “观测→7 自由度” 的离散映射，将机器人动作拆解为三类语义化动作类型，实现模块化解码：

3-DoF 平移、3-DoF 旋转、1-DoF 夹爪控制，每类动作对应独立 token；
支持并行解码多步未来动作，大幅降低推理延迟，同时动作类型可解释性更强。

实验结果：效率 + 性能双碾压 SOTA

论文在仿真（LIBERO 基准）和真实世界（AgileX Cobot Magic 平台）开展全面实验，所有数据均来自论文官方实验结果：

1. 仿真实验（LIBERO 机器人操纵基准）

成功率：SemanticVLA 整体成功率达 97.7%，超 OpenVLA（76.5%）21.1%， even 轻量化版本 SemanticVLA-Lite 也达 95.8%（数据来源：论文 Table1）；
效率：视觉 token 仅保留 1/8~1/16，动作 token 保留 3/7，训练成本降低 3.0×，推理延迟降低 2.7×，吞吐量达 89.9Hz（OpenVLA 仅 4.2Hz）（数据来源：论文 Table2）。

Fig.7 展示 SemanticVLA 在 LIBERO-Spatial（空间推理）、Object（物体泛化）、Goal（目标理解）、Long（长程任务）四大套件的执行效果，红色标注 Long 任务（最复杂）成功率 94.8%，远超 OpenVLA-OFT 等基线。

2. 真实世界实验（AgileX Cobot Magic 平台）

在物体放置、抽屉操纵、T 恤折叠三大长程任务中：

成功率：SemanticVLA 达 77.8%，超 OpenVLA-OFT（55.6%）22.2%，尤其在 T 恤折叠（ deformable 物体操纵）任务中，Step3 成功率 8.0/15，是 OpenVLA-OFT（4.7/15）的 1.7 倍（数据来源：论文 Table3）；
效率：推理吞吐量达 136.6Hz，是 OpenVLA（1.8Hz）的 75.9 倍，满足实时操纵需求（数据来源：论文 Table9）。

Fig.4 展示 SemanticVLA 完成 “玩具放置→抽屉操纵→T 恤折叠” 的关键步骤，红色标注每一步的语义对齐动作（如 “Bear→Plate”“Open Drawer”），全程无冗余操作，验证真实场景适用性。

核心贡献与研究价值

SemanticVLA 的核心贡献可总结为三点，均来自论文官方定义：

提出SD-Pruner，首次针对 SigLIP/DINOv2 设计指令 - 几何双感知剪枝，解决视觉冗余问题；
提出SH-Fuser，实现语义 - 几何特征的层级融合，强化跨模态语义对齐；
提出SA-Coupler，结构化动作表示，兼顾推理效率与动作可解释性；

该框架为机器人操纵的规模化落地提供全新范式，同时为多模态语义对齐研究提供关键参考。

论文出处

标题：《SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation》
作者：Wei Li, Renshan Zhang, Rui Shao（哈尔滨工业大学（深圳））、Kaiwen Zhou（华为诺亚方舟实验室）等
开源地址：https://github.com/JiuTian-VL/SemanticVLA
发表版本：arXiv:2511.10518v1 [cs.CV]
版权声明：本文内容均来源于上述论文，版权归原作者及所属单位（哈尔滨工业大学（深圳）、华为诺亚方舟实验室）所有，转载请注明出处。

关注【具身智能制造】，每周拆解机器人与 AI 领域顶会，带你紧跟前沿技术～

【声明】内容源于网络

具身智能制造

深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

内容 41

粉丝 0

具身智能制造深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

总阅读21

粉丝0

内容41