点击下方卡片,关注“具身智能之心”公众号
作者丨Huanqian Wang等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
家里让机器人拿杯水,换个杯子摆放位置就失灵;工厂里机器人抓取零件,摄像头角度稍调就 “抓空”;仓库中分拣货物,货架高度变了就成了 “断线木偶”…… 在机器人操控领域,这样的 “水土不服” 早已是行业常态。
明明在实验室里表现完美的机器人,为何一到真实场景就掉链子?核心症结在于传统静态数据采集模式的局限:一条训练轨迹只能对应一个固定空间配置,物体位置、目标落点、相机视角全是 “死的”。要让机器人适应不同场景,就得没完没了采集海量数据,不仅耗时耗力,还会陷入数据稀疏的困境。
如今,北京智源人工智能研究院、清华大学、东南大学等机构的团队,凭借一项名为 MOVE(MOtion-Based Variability Enhancement,基于运动的可变性增强) 的创新技术,精准破解了这一行业痛点,让机器人真正学会 “举一反三”!
技术资源已公开,欢迎行业伙伴探索
-
论文链接:https://arxiv.org/abs/2512.04813 -
代码仓库:https://github.com/lucywang720/MOVE -
数据集地址:https://huggingface.co/datasets/BAAI/MOVE
核心思路:让数据“动起来”,一条轨迹顶N条用
MOVE 的核心理念简单却极具颠覆性:采集数据时让关键物体 “动起来”,让一条训练轨迹包含无数种空间状态,实现 “一条轨迹顶 N 条用” 的超高数据效率。
传统数据采集就像让机器人死记硬背一个固定答案,而 MOVE 则是引导机器人在 “动态学习” 中掌握解题逻辑。在采集人类示范轨迹时,MOVE 会针对抓取对象、目标物体、相机等关键元素,开展三类可控的运动增强:
-
物体平移:让待抓取物体和目标落点沿线性轨迹移动,还会在边界反弹,覆盖整个工作空间,相当于让机器人练会 “追着东西抓” 的本领; -
物体旋转:针对带把手的杯子这类不对称物体,控制其围绕垂直轴匀速旋转,让机器人适配物体的不同朝向; -
相机运动:在仿真环境中让相机沿圆柱形路径移动,模拟真实场景里多变的观测视角。
同时,技术团队还会根据任务语义拆分轨迹,比如抓取阶段、放置阶段,再针对性施加运动,让机器人在动态中学习分阶段适配策略。
这种模式下,一条 MOVE 轨迹不再是孤立的 “空间点”,而是一段包含丰富空间配置信息的 “空间曲线”,数据效率直接拉满。
实测封神:模拟 + 真实场景双重验证,性能优势碾压传统方案
为验证 MOVE 的实力,团队在模拟环境和真实场景开展了全方位测试,最终交出了一份堪称 “碾压级” 的成绩单。
模拟环境:成功率提升 76%,数据效率最高达 5 倍
在 Meta-World 基准测试的 10 个操控任务中,MOVE 技术让机器人平均成功率达到 39.1%,相比传统静态采集的 22.2%,相对提升高达 76.1%!
-
抓取放置任务中,2 万步的 MOVE 数据集,性能就能媲美 5 万步的静态数据集; -
装配任务中,5 万步的 MOVE 数据集,可达到 10 万步静态数据集的效果; -
即便是在未训练过的区域,MOVE 也展现出超强泛化能力:圆圈内训练时,圈内成功率 43.7%(传统方案 21.3%),圈外成功率更是达到 67.4%(传统方案 44.6%)。
真实场景:3.5 万步干过 7.5 万步,落地性拉满
在真实世界的橙子抓取放置任务中,MOVE 的表现同样惊艳:
-
仅用 3.5 万步数据,MOVE 的成功率就达到 23.3%,而传统静态采集需要 7.5 万步才能达到同等水平; -
当数据量提升至 7.5 万步时,MOVE 的成功率进一步飙升至 36.7%,对应的 normalized score(任务完成度综合评分,分数越高操作越稳定)达到 0.522,远超传统方案的 0.389。
技术对比:完胜 ADC,实现数据采集范式根本性革新
同样是为提升策略泛化能力,2025 年 3 月曾有团队提出 ADC(对抗式数据采集)方法。该方法依托两名操作员协同配合,让对抗操作员在单条轨迹中施加视觉与语言动态扰动,倒逼遥操作员调整动作。这种创新设计可将数百种静态环境与任务变化压缩至单条演示轨迹中,从而大幅提升数据的信息密度。实验数据佐证,仅采用20%的ADC数据集训练的VLA模型,在静态环境、动态扰动场景以及传感器失效(摄像头掩码)等极端场景下,其泛化性能与鲁棒性均显著超越基于传统全量数据集训练的模型。
但相较于 ADC,MOVE 的优势更为显著:ADC 本质是对静态数据采集的 “局部优化”,仅靠离散位置重置缓解部分数据稀疏问题;而 MOVE 是对数据采集范式的 “根本性革新”,凭借连续动态增强、多维度组合扰动、分阶段任务适配等核心设计,实现了空间信息密度与泛化能力的跨越式提升。
在 Pick&Place、Push、Assembly 等 10 项典型任务中,MOVE 将机器人平均成功率从 ADC 方案的 0.276 提升至 0.391,性能提升成效显著。
行业意义:开启动态数据采集新时代,降低机器人落地门槛
智源研究院具身数据负责人姚国才介绍到:MOVE 技术的出现,不仅解决了机器人空间泛化的核心痛点,更重构了机器人数据采集范式——从 “静态单点采样” 转向 “动态连续采样”,让机器人用更少的数据实现更强的泛化能力。
MOVE技术对于真实世界的机器人部署意义重大:无需耗费大量资源采集海量静态数据,仅通过动态增强就能让机器人适应多变环境,大幅降低了机器人在家庭、工厂、物流等场景落地的成本和门槛。
当然,MOVE 目前在衣物折叠等复杂任务,以及动态桌面高度等更多维度的适配仍需探索,但它已为机器人的空间泛化能力打开了新的想象空间。未来,随着技术进一步优化落地,我们有望看到更多机器人摆脱 “实验室依赖”,真正迈向通用具身智能!


