机器人数据快速采集：斯坦福机器人UMI从演示中转移技能，打破训练数据采集速度- 大数跨境

AirkingRobots艾科伯特科技

2024-12-15

导读：本文了一种通用操作接口（UMI），它是一个数据收集和策略学习框架，旨在通过人类演示直接将技能转移到可部署的机器人策略中。UMI采用手持夹具，并通过精心设计的接口实现便捷、低成本且信息丰富的数据采集，特

本文了一种通用操作接口（UMI），它是一个数据收集和策略学习框架，旨在通过人类演示直接将技能转移到可部署的机器人策略中。UMI采用手持夹具，并通过精心设计的接口实现便捷、低成本且信息丰富的数据采集，特别适用于复杂的双手和动态操作演示。为了支持可部署的策略学习，UMI结合了精确设计的策略接口，能够在推理过程中实现延迟匹配和相对轨迹动作表示。这种方法使得所学习的策略具有硬件无关性，并可以在不同的机器人平台上进行部署。凭借这些特点，UMI框架通过仅改变每个任务的训练数据，实现了零样本推广的能力，支持动态、双手协作、精确和长时程的行为。在广泛的实验证明中，UMI展示了其多功能性与有效性，且通过UMI学习的策略能够在多样化的训练数据下，在全新的环境和物体上实现零样本泛化。UMI的硬件和软件系统已开源，详情请见 https://umi-gripper.github.io。

科研人员只需通过机械手进行示范，机器人便能从收集到的数据中学会洗碗，并且具备良好的应变能力。它不仅能顺利完成打开水龙头、抓取盘子、用百洁布清洗的完整动作流程，还能够应对外界的干扰，确保操作的稳定性和精准性。

际上，这一切都源自斯坦福大学的两个团队——UMI和ALOHO。它们已经在实验室中带领各自的机器人进行对练，甚至进行了碰拳和握手的互动。

破解数据破解难题

新方法在数据收集上的创新，关键在于这对手持夹持器。每个夹持器配备了一个价值300美元的GoPro摄像头，并结合一面镜子来获取隐式的立体视觉信息，这种设计显著降低了成本和重量。此外，夹持器内部集成了惯性传感器，能够与视觉跟踪系统协同工作，通过联合优化增强了惯性姿态的精确性。

录好的第一视角演示影像就像这样：

机器人学会之后，即使照明环境发生剧烈变化也丝毫不受影响。

再叠加上人为干扰，机器人最后也不忘把水龙头关好。

除刷碗之外，还展示了叠衣服、摆放餐具和抛物投篮，都是学习了人类演示后，机器人全自主行动无遥控，1倍速播放。

通用操作接口

斯坦福的这项研究名为通用操作接口（UMI），是一种数据收集和策略学习框架，允许将技能从人类演示直接转移到可部署的机器人策略。

其中硬件，设计了一个手持夹持器，长这样婶儿：

上面搭载的GoPro运动相机，是唯一的传感器和记录设备，这种设计可以最小化人机观测空间上的差异，保证策略部署时的鲁棒性，同时也简化了硬件搭建。

相机配有155°宽视角鱼眼镜头，可以收集足够的视觉上下文和关键深度信息。相机的两边还配有两块物理侧镜，用于提供隐式的立体视角，辅助深度估计。

下图中绿色框圈出的部分就是侧镜在相机镜头上的显示：

结合内置的IMU传感器，UMI能够在快速运动下稳健跟踪，即使在运动模糊或视觉特征缺失时也能在短时间内保持跟踪。

并且，可以通过视觉标记实时检测夹持器张开宽度，进行精细和连续的抓取控制，同时可隐式检测抓取力度。

UMI的低成本特性使其在餐厅和家庭环境中进行数据收集变得更加可行和便利。通过采用3D打印夹持器，材料成本仅为73美元，再加上每个GoPro相机及其配件的总成本为298美元，UMI大幅降低了传统机器人系统所需的高昂硬件开销。这种低成本设计使得UMI能够广泛应用于不同的场景，尤其是在餐厅和家庭环境中。

在这些环境中，UMI的部署非常迅速且便捷。得益于其轻巧、易于携带的特性，科研人员或操作人员可以在短短2分钟内将设备准备就绪，开始进行数据收集。这种高效的部署方式不仅节省了时间，还能应对不同的操作需求，灵活地适应动态的家庭或餐厅环境。

UMI的成本效益和便利性，使其成为日常应用中的理想选择，能够在无需复杂安装的情况下，快速开展机器人学习与操作示范。这种便捷的数据收集方式为研究人员提供了更大的实验灵活性，也为商业环境中机器人技术的推广与应用开辟了新的可能性。

再来看策略接口设计。

UMI在观测和推理时间上可能会有延迟，为此研究人员进行了延迟匹配。

具体来说，UMI框架通过精确测量不同数据流的延迟，并将其对齐到最大延迟，从而实现同步观测序列的生成。通过图像时间戳进行线性插值，确保数据流之间的准确同步。此外，UMI还测量了机械臂和手持夹持器的延迟，采用提前对应的时间发送控制指令，以确保系统响应的实时性和精确性。

在策略输入方面，端效器（机械臂）的位姿状态采用了相对位姿序列的表示方法，使得这一表示方式与机器人基座的位置无关。因此，UMI的策略能够跨多个机器人平台进行部署，而无需重新训练或校准，大大提高了系统的通用性和适应性。

得益于多样化的操作数据集，UMI能够训练出一个扩散策略（Diffusion Policy），实现零样本泛化到新的环境和对象。这意味着，机器人能够在未知的环境中执行任务，并展现出卓越的适应性和灵活性。扩散策略基于团队之前的研究成果，采用扩散模型进行机器人视觉与运动策略的学习，能够优雅地处理多模态动作分布，适用于高维动作空间，并表现出令人印象深刻的训练稳定性。

凭借这一策略，UMI能够应对复杂的操作任务，包括水上作业等极具挑战的场景，游刃有余地完成任务。