大数跨境
0
0

上海AI Lab提出CoMo:无需微调为机器人任务生成有效伪动作标签

上海AI Lab提出CoMo:无需微调为机器人任务生成有效伪动作标签 自动驾驶之心
2025-05-24
2

点击下方卡片,关注“具身智能之心”公众号


作者丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

出发点与问题

机器人学习的发展困境

机器人学习领域长期受限于数据稀缺、多样性不足和高度异质性等问题。传统依赖小规模机器人操作数据的训练模式,难以支撑复杂任务的泛化能力,而互联网中存在的海量无动作视频数据(如人类操作演示、日常场景记录等),为突破这一困境提供了新方向。现有研究尝试从无动作视频中提取潜在动作模型,常用逆动力学编码器-前向动力学解码器架构结合向量量化变分自动编码器(VQ-VAE)生成伪动作标签,但这类方法采用离散潜在动作表示,不可避免地导致信息丢失,且存在训练不稳定、难以处理细粒度动态等问题。

连续运动表示的必要性

现实世界的运动本质上是连续的,离散表示无法捕捉复杂动态(如精细操作轨迹、物理交互细节)。视觉生成和机器人学习领域的研究已表明,连续表示在性能上具有优势,但直接学习连续运动面临“模型崩溃”挑战——编码器易优先捕获未来帧视觉外观用于像素重建,而非提取底层运动动态,导致模型退化为帧预测器,无法为策略训练提供有效动作表征。

CoMo框架的创新设计

早期时间特征差异机制:抑制模型崩溃

受动作识别中时间差异网络的启发,CoMo在编码器输入前移除未来帧特征,改用当前帧与未来帧的特征差异(Dt)与当前帧特征(Ft)的组合表示。这一设计通过抑制静态外观信息、增强动态运动线索,显著提升了训练稳定性。具体而言:

  1. 特征处理流程:使用MAE预训练的ViT提取当前帧与未来帧的令牌级特征,计算时间特征差异后,仅将当前帧特征与差异特征输入Motion Q-former进行注意力交互,最终得到运动表示Zt。
  2. 关键作用:避免模型依赖视觉外观捷径,强制其聚焦于运动动态提取,从根本上缓解了连续运动学习中的模型崩溃问题。

信息瓶颈导向的维度约束:平衡信息与噪声

基于信息瓶颈原理,CoMo通过约束潜在运动嵌入维度,在保留动作相关信息与过滤无关噪声间取得平衡。实验表明,过高的维度会引入更多静态背景噪声,影响动作回归精度;过低则导致运动细节丢失。经优化,将维度固定为128时,模型既能捕获足够运动细节,又能最小化背景干扰,实现了信息效率的最优化。

双指标评估体系:LP-MSE与S-PCFC

为解决传统重建误差无法有效评估运动表示质量的问题,CoMo提出两个新指标:

  1. 动作预测线性探测均方误差(LP-MSE):通过训练线性MLP从运动嵌入预测真实机器人动作,MSE越低表明嵌入中动作相关信息越丰富。
  2. 过去-当前与未来-当前运动余弦相似度(S-PCFC):计算时间对称段运动嵌入的相似度,高值表明模型依赖静态上下文,低值则说明运动表示更关注动态方向,能有效衡量捷径学习程度。

联合策略学习与零样本泛化能力

连续伪动作生成与统一训练

CoMo可从无动作视频中提取连续伪动作标签,与机器人动作数据形成共享连续分布,支持统一策略的联合学习。这一机制避免了传统方法中复杂的多阶段预训练和微调流程,实现了跨数据源(如机器人操作视频、人类演示视频)的无缝整合。具体而言:

  1. 数据增强:无动作视频通过IDM提取潜在运动嵌入,转化为带“伪动作”的轨迹数据。
  2. 策略架构:开发基于扩散和自回归的统一策略模型,同时处理真实动作与伪动作,利用大规模无动作数据提升策略泛化性。

零样本跨域迁移能力

CoMo在互联网视频(涵盖野外、人类、机器人场景)上训练后,可直接为未见过的机器人任务生成有效伪动作标签,无需微调。这种零样本泛化能力源于其对运动动态的抽象表示,而非特定场景的视觉特征,使机器人能从互联网数据中迁移通用操作知识到新任务。

实验验证与关键发现

模拟实验:性能全面超越基线

  1. LIBERO基准测试:与离散潜在动作(VQ)、朴素连续变体(w/o VQ)、RGB差异等方法相比,CoMo在平均成功率上提升显著(如LIBERO任务平均成功率达80.8%,较Pre-VQ提升7.2%)。LP-MSE指标显示其动作相关信息提取能力更强(0.784 vs Pre-VQ的2.967),S-PCFC表明其有效抑制了静态噪声(0.901 vs w/o VQ的0.989)。
  2. CALVIN基准测试:在长视距语言指令任务中,CoMo使平均任务完成长度从2.306提升至2.848,验证了其在复杂序列动作中的有效性。

维度缩放实验:揭示信息瓶颈理论实践

实验发现,潜在运动嵌入维度与性能呈非单调关系:维度从32增至128时,成功率提升且S-PCFC降低(从0.730到0.940),但超过128后性能下降。这印证了信息瓶颈理论——过高维度会引入冗余外观信息,干扰动作预测,而128维实现了信息保留与噪声过滤的最佳平衡。

真实世界实验:跨实体操作验证

使用Franka机器人执行拾取、开抽屉、插入等任务时,CoMo结合人类演示视频与机器人数据训练的策略,成功率较离散基线提升显著(如拾取任务从60%提升至75%)。其学习的潜在运动表示对背景变化鲁棒,能跨实体(人类与机器人)构建统一动作空间,支持跨域技能迁移。

结论与未来方向

核心贡献总结

CoMo框架通过早期时间特征差异机制和信息瓶颈维度约束,实现了从无动作视频中高效学习连续潜在运动。LP-MSE与S-PCFC为运动表示提供了低成本、高可靠性的评估工具,指导方法优化。通过连续伪动作生成,实现了互联网视频与机器人数据的统一策略训练,显著提升了机器人在模拟和真实场景中的泛化能力。

局限性与未来工作

  1. 现存差距:潜在运动与真实机器人动作仍存在性能差距(如LIBERO中DP方法成功率89.2% vs CoMo的80.8%),需引入额外时间监督提升运动表征的时序敏感性。
  2. 指标优化:LP-MSE与S-PCFC仍可进一步完善,以更全面评估复杂动态场景下的运动表示质量。
  3. 场景扩展:探索CoMo在多机器人协作、非结构化环境等更复杂场景中的应用,提升通用机器人的环境适应性。

参考

[1] CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning


论文辅导计划

具身智能干货社区

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、具身大脑、具身小脑、大模型、视觉语言模型、强化学习、Diffusion Policy、机器臂抓取、姿态估计、策略学习、轮式+机械臂双足机器人、四足机器人、大模型部署、端到端、规划控制等方向星球内部为大家汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集

全栈技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、Diffusion Policy、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)。

【声明】内容源于网络
0
0
自动驾驶之心
自动驾驶开发者社区,聚集数十万领域人才!关注自动驾驶、大模型、具身智能、感知融合、端到端、规划控制、领域方案、企业培训咨询等。广泛覆盖新势力、主机厂、Tier1中高管、AI公司创始人和机构投资人。商务合作:oooops-life
内容 5088
粉丝 0
自动驾驶之心 自动驾驶开发者社区,聚集数十万领域人才!关注自动驾驶、大模型、具身智能、感知融合、端到端、规划控制、领域方案、企业培训咨询等。广泛覆盖新势力、主机厂、Tier1中高管、AI公司创始人和机构投资人。商务合作:oooops-life
总阅读2.3k
粉丝0
内容5.1k