NeurIPS'25 | 港大×达摩院HiMaCon：泛化失败不在于策略学习不足，而在于缺乏"操作概念"



NeurIPS'25 | 港大×达摩院HiMaCon：泛化失败不在于策略学习不足，而在于缺乏"操作概念"

具身智能之心

2025-12-08

点击下方卡片，关注“具身智能之心”公众号

作者丨Ruizhe Liu等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

论文标题：HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data
作者：Ruizhe Liu, Pei Zhou, Qian Luo, Li Sun, Jun Cen, Yibing Song, Yanchao Yang
机构：The University of Hong Kong; DAMO Academy, Alibaba Group; Transcengram
原文链接： https://arxiv.org/abs/2510.11321
开源代码： https://github.com/zrllrz/HiMaCon
项目主页： https://zrllrz.github.io/HiMaCon-page/
作者简介：

本文第一作者为香港大学InfoBodied AI实验室博士生刘瑞哲，合作者包括周佩、罗谦（同属忆生科技）和孙力。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超，以及阿里巴巴达摩院研究员岑俊和宋奕兵。InfoBodied AI实验室在CVPR、ICML、NeurIPS、ICLR等顶会持续发表代表性成果，与国内外知名高校，科研机构广泛开展合作。

1 机器人为何需要「概念」？

机器人操作模型常在训练环境表现优异，却在分布外场景失败。例如，能稳定完成"将杯子放入容器"的策略，仅需改变物体颜色、调整位置或增加隔板，就可能彻底失效。

港大与阿里达摩院联合提出的HiMaCon指出：泛化失败的根源不在于策略学习不足，而在于缺乏"操作概念"这一认知层。

人类执行任务时，会自然形成“对齐物体”、“抓取目标”、“规避障碍”等可复用的抽象概念，这些概念能跨物体、场景和视觉变化保持稳定。传统机器人系统仅以像素和关节状态为输入，缺乏概念结构作为中间表征，难以真正泛化。

现有端到端方法直接从视频-动作对学习策略，容易过拟合场景外观和统计偏置，而非任务本质。以“放入容器”为例，无论容器如何变化，核心逻辑始终一致：识别区域 → 规划路径 → 避免碰撞 → 完成放置。

HiMaCon的核心理念：机器人要实现泛化，必须像人类一样先学“概念”，再学“动作”。具体而言，让机器人从多模态演示数据中自动发现类人的层级操作概念，完全无需人工标注。

2 HiMaCon：完全自监督地发现多层级操作概念

如图1所示，HiMaCon通过自监督学习，将多模态演示数据编码为等长的操作概念序列。

图1. 以自监督方式学习概念编码器（ℰ），从多模态机器人演示数据中提取概念表征（紫色箭头）

HiMaCon的核心创新来自两大自监督机制：

2.1 跨模态关联：捕获不变的关联而非表面特征

机器人演示包含多视角RGB、本体感知等多模态数据。不同模态在任务执行中呈现高度一致的变化规律——例如，"开启容器"任务中，视觉上的盖子旋转、力反馈和听觉提示之间的关联模式在不同容器间保持一致。这些跨模态相关结构是高价值的泛化信号。

HiMaCon引入跨模态关联网络（图2）：随机遮挡部分模态，强制模型仅用剩余模态+概念表征重建全部模态。这迫使概念表征编码模态间的物理依赖关系，而非易变的颜色、纹理等表面特征。

图2. 跨模态关联网络（C）采用掩码-预测策略，使概念潜在向量捕获模态间的持续性模式。

2.2 多时域子目标结构：让操作概念自动形成「层级」

机器人任务具有天然层级性。以"将碗收入橱柜"为例，可分解为粗粒度"开启抽屉、放入碗"，中等粒度"抓取碗、拉开抽屉"，以及细粒度"手爪对齐、微调位姿"。

HiMaCon设计多时域未来预测器（图3）：

根据概念latent的球面距离，自动分割出不同时域长度的子阶段（无需人工标注）
训练网络预测每个子阶段的终止状态，使概念表征编码多时域的进度信息

如图4所示，通过这种方式，概念表征自然涌现出涵盖不同时域尺度的层级化聚类结构。

图4. 通过概念聚类实现多粒度任务分解。在"打开抽屉并放入碗"任务中，不同聚类约束（ϵ）产生不同粒度的分解，自然对齐语义任务组成部分。例如，第2行的第三个片段对应"将碗放入抽屉"，而第4行的第二个片段对应"拉开抽屉"。这展示了我们的方法能够在无显式监督的情况下发现层级化且人类可解释的任务结构。

3与任意策略兼容

HiMaCon作为概念表征增强模块，可直接作用于策略模型中间特征。通过联合预测机制，策略网络同时输出动作和HiMaCon发现的概念表征（图5），在学习动作的同时学习相关概念结构，无需修改策略整体架构。

图5. 概念通过主干网络（πh）集成到策略学习，利用结构化操作知识对动作生成进行正则化

3.1 模拟器实验

在LIBERO[1]基准上的三项评估：（1）LIBERO-90（90个训练任务）；（2）LIBERO-10（长时序组合任务）；（3）LIBERO-GOAL（分布外环境任务）。所有操作概念仅从LIBERO-90的多模态演示中发现。

如表1所示，相较于不使用概念及其他概念学习方法，HiMaCon在分布内任务、长时序组合任务和分布外任务上均显著提升成功率，证明其良好泛化能力。

表1. 不同概念发现方法增强后的ACT[2]和Diffusion Policy[3]成功率（%）

3.2 真实机器人实验：泛化性验证

在Mobile ALOHA[4]平台上设计六类难度递增的杯子收纳场景：新摆放位置、新颜色组合、全新物体、遮挡、障碍物、同时抓取两杯。

如表2所示，尽管概念编码器和策略仅在简单场景训练，HiMaCon增强策略在所有测试场景均显著提升性能。

特别在"障碍物"和"同时抓取两杯"等训练中从未出现的复杂情况（图6），概念增强策略成功完成任务，而基线完全失败，充分证明所学概念的泛化能力。

barrier-failure-baseline

barrier-success-ours

grasp-together-failure-baseline

grasp-together-success-ours

3.3 提升VLA数据效率

HiMaCon显著提升视觉-语言-动作模型（VLA）的数据效率。作者将操作概念集成到OpenVLA-OFT[5]中，在LIBERO-10任务上仅使用原研究50%的训练数据进行微调实验。如图6所示，在整个训练过程中，集成操作概念的VLA始终保持更高的成功率。值得注意的是，原始OpenVLA-OFT使用100%数据达到94.5%成功率，而HiMaCon增强的VLA 仅用50%数据即达到接近性能，数据效率提升显著。

图7. LIBERO-10任务上的数据效率对比（仅使用50%训练数据）。实线表示各epoch的最佳性能，操作概念增强的VLA持续领先约9%

这一提升源于HiMaCon在多个抽象层级捕获操作动态的能力。学习到的概念提供了连接高层任务指令与低层控制动作的中间表征，为VLA提供结构化的操作知识，减轻了从头学习复杂感知-运动模式的负担。

4 总结

HiMaCon实现了从无标注数据中自动发现可解释、可组合的分层操作概念，这些概念具备类人的层级结构，显著提升泛化和迁移能力。核心创新包括：（1）跨模态不变性学习使概念更稳定可迁移；（2）多时域预测机制使概念自然涌现层级结构；（3）通用增强模块可应用于各类模仿学习策略。更重要的是，HiMaCon证明了机器人仅凭自身多模态数据，无需人类标注或语言描述，就能学会类人的操作概念结构——这为开发真正适应现实世界的泛化型机器人迈出了关键一步。

5. 参考文献

[1]. Liu, B., Zhu, Y., Gao, C., Feng, Y., Liu, Q., Zhu, Y., & Stone, P. (2023). Libero: Benchmarking knowledge transfer for lifelong robot learning. Advances in Neural Information Processing Systems, 36, 44776-44791.

[2]. Zhao, T. Z., Kumar, V., Levine, S., & Finn, C. (2023). Learning fine-grained bimanual manipulation with low-cost hardware. arXiv preprint arXiv:2304.13705.

[3]. Chi, C., Xu, Z., Feng, S., Cousineau, E., Du, Y., Burchfiel, B., ... & Song, S. (2025). Diffusion policy: Visuomotor policy learning via action diffusion. The International Journal of Robotics Research, 44(10-11), 1684-1704.

[4]. Fu, Z., Zhao, T. Z., & Finn, C. (2024). Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117.

[5]. Kim, M. J., Finn, C., & Liang, P. (2025). Fine-tuning vision-language-action models: Optimizing speed and success. arXiv preprint arXiv:2502.19645.

【声明】内容源于网络

具身智能之心

与世界交互，更进一步。具身智能之心是国内具身与机器人领域的专业技术平台，集企业咨询、在线教育、展会服务、线下培训、硬件研发、技术方案为一体。

内容 1142

粉丝 0

具身智能之心与世界交互，更进一步。具身智能之心是国内具身与机器人领域的专业技术平台，集企业咨询、在线教育、展会服务、线下培训、硬件研发、技术方案为一体。

总阅读227

粉丝0

内容1.1k