点击下方卡片,关注“具身智能之心”公众号
作者丨Ruizhe Liu等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
-
论文标题:HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data
-
作者:Ruizhe Liu, Pei Zhou, Qian Luo, Li Sun, Jun Cen, Yibing Song, Yanchao Yang
-
机构:The University of Hong Kong; DAMO Academy, Alibaba Group; Transcengram
-
原文链接: https://arxiv.org/abs/2510.11321
-
开源代码: https://github.com/zrllrz/HiMaCon
-
项目主页: https://zrllrz.github.io/HiMaCon-page/
-
作者简介:
本文第一作者为香港大学InfoBodied AI实验室博士生刘瑞哲,合作者包括周佩、罗谦(同属忆生科技)和孙力。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超,以及阿里巴巴达摩院研究员岑俊和宋奕兵。InfoBodied AI实验室在CVPR、ICML、NeurIPS、ICLR等顶会持续发表代表性成果,与国内外知名高校,科研机构广泛开展合作。
1 机器人为何需要「概念」?
机器人操作模型常在训练环境表现优异,却在分布外场景失败。例如,能稳定完成"将杯子放入容器"的策略,仅需改变物体颜色、调整位置或增加隔板,就可能彻底失效。
港大与阿里达摩院联合提出的HiMaCon指出:泛化失败的根源不在于策略学习不足,而在于缺乏"操作概念"这一认知层。
人类执行任务时,会自然形成“对齐物体”、“抓取目标”、“规避障碍”等可复用的抽象概念,这些概念能跨物体、场景和视觉变化保持稳定。传统机器人系统仅以像素和关节状态为输入,缺乏概念结构作为中间表征,难以真正泛化。
现有端到端方法直接从视频-动作对学习策略,容易过拟合场景外观和统计偏置,而非任务本质。以“放入容器”为例,无论容器如何变化,核心逻辑始终一致:识别区域 → 规划路径 → 避免碰撞 → 完成放置。
HiMaCon的核心理念:机器人要实现泛化,必须像人类一样先学“概念”,再学“动作”。具体而言,让机器人从多模态演示数据中自动发现类人的层级操作概念,完全无需人工标注。
2 HiMaCon:完全自监督地发现多层级操作概念
如图1所示,HiMaCon通过自监督学习,将多模态演示数据编码为等长的操作概念序列。
HiMaCon的核心创新来自两大自监督机制:
2.1 跨模态关联:捕获不变的关联而非表面特征
机器人演示包含多视角RGB、本体感知等多模态数据。不同模态在任务执行中呈现高度一致的变化规律——例如,"开启容器"任务中,视觉上的盖子旋转、力反馈和听觉提示之间的关联模式在不同容器间保持一致。这些跨模态相关结构是高价值的泛化信号。
HiMaCon引入跨模态关联网络(图2):随机遮挡部分模态,强制模型仅用剩余模态+概念表征重建全部模态。这迫使概念表征编码模态间的物理依赖关系,而非易变的颜色、纹理等表面特征。
2.2 多时域子目标结构:让操作概念自动形成「层级」
机器人任务具有天然层级性。以"将碗收入橱柜"为例,可分解为粗粒度"开启抽屉、放入碗",中等粒度"抓取碗、拉开抽屉",以及细粒度"手爪对齐、微调位姿"。
HiMaCon设计多时域未来预测器(图3):
-
根据概念latent的球面距离,自动分割出不同时域长度的子阶段(无需人工标注) -
训练网络预测每个子阶段的终止状态,使概念表征编码多时域的进度信息
如图4所示,通过这种方式,概念表征自然涌现出涵盖不同时域尺度的层级化聚类结构。
3与任意策略兼容
HiMaCon作为概念表征增强模块,可直接作用于策略模型中间特征。通过联合预测机制,策略网络同时输出动作和HiMaCon发现的概念表征(图5),在学习动作的同时学习相关概念结构,无需修改策略整体架构。
3.1 模拟器实验
在LIBERO[1]基准上的三项评估:(1)LIBERO-90(90个训练任务);(2)LIBERO-10(长时序组合任务);(3)LIBERO-GOAL(分布外环境任务)。所有操作概念仅从LIBERO-90的多模态演示中发现。
如表1所示,相较于不使用概念及其他概念学习方法,HiMaCon在分布内任务、长时序组合任务和分布外任务上均显著提升成功率,证明其良好泛化能力。
3.2 真实机器人实验:泛化性验证
在Mobile ALOHA[4]平台上设计六类难度递增的杯子收纳场景:新摆放位置、新颜色组合、全新物体、遮挡、障碍物、同时抓取两杯。
如表2所示,尽管概念编码器和策略仅在简单场景训练,HiMaCon增强策略在所有测试场景均显著提升性能。
特别在"障碍物"和"同时抓取两杯"等训练中从未出现的复杂情况(图6),概念增强策略成功完成任务,而基线完全失败,充分证明所学概念的泛化能力。
barrier-failure-baseline
barrier-success-ours
grasp-together-failure-baseline
grasp-together-success-ours



