如何使机器人学习多任务通用具身策略是一项长期的挑战。
从近期大语言模型发展的历程看,获得通用知识的关键是从互联网中获得大量数据,使用大规模网络结构和无监督学习目标进行预训练。
类似的,学习通用具身策略需要从大量机器人交互数据中获得实体、任务、环境、动作的数据,从而更好的理解环境并作出决策。
然而,与视觉和自然语言处理不同,高质量的具身数据获取是非常困难的,且不同机器人的数据往往难以通用。现有研究主要通过借助基础模型作为基础具身策略,但由于机器人和其他领域数据存在较大差异,基础策略往往在具身场景中存在适应性和泛化难题。
近期,上海人工智能实验室、香港科技大学、上海交通大学等联合提出的大规模人类视频预训练和具身策略微调算法给出了一个合理的解决方案,提出了全新的基于视频预测扩散模型的高效策略学习算法:Video-based Policy Learning via Discrete Diffusion(VPDD)来解决该问题。
通过从大规模人类操作数据 Ego4d 学习统一的视频表征,使用大量无动作视频构建自监督视频预测扩散模型预训练任务,并在少量有动作标记的具身数据上进行高效策略微调,能够使通用人类操作视频中编码的物理世界先验知识适应于具身任务,仅利用少量机器人轨迹在 RLBench 等 3D 通用机械臂操作任务集合中获得优异的性能。
-
论文名称:Large-Scale Actionless Video Pre-Training via Discrete Diffusion for Efficient Policy Learning -
论文链接:https://arxiv.org/abs/2402.14407 -
项目地址:https://video-diff.github.io/
背景
方法
-
在人类操作数据和机器人数据中构建统一的、可泛化、可迁移的视频表征; -
使用视频层面的预测任务对轨迹整体建模,而非图像层面建模; -
可扩展的框架处理大规模人类视频,同时能够在小规模机器人数据上泛化。
1.统一视频编码
2.基于视频的预训练
3.机器人策略学习
实验
总结
想要第一时间获取每日最新大模型热门论文? 扫描下方二维码,或添加微信 Tobethenum1,加入大模型论文分享群,务必备注“大模型日报”。

