大数跨境
0
0

未来数采行业的主流——UMI及其变种

未来数采行业的主流——UMI及其变种 Xbotics具身智能实验室
2025-12-09
0
导读:UMI 是一种“通用操作接口 (Universal Manipulation Interface)”:其核心理念是让人类通过手持 gripper (夹爪/手爪) 来执行操作

点击下方卡片,关注【Xbotics具身智能实验室】公众号

更多具身干货,欢迎加入【Xbotics知识星球】你想要的这里都有~~



背景:什么是 UMI

UMI 是一种“通用操作接口 (Universal Manipulation Interface)”:其核心理念是让人类通过手持 gripper (夹爪/手爪) 来执行操作(如抓取、搬运、双手协作、动态操作等),收集人类“自然、在‑the‑wild (真实环境)” 的演示 (demonstrations)。然后将这些轨迹 (end-effector 轨迹 + 视觉 + 状态) 用于训练机器人操纵 (visuomotor) 策略,从而实现“人类 → 机器人 (cross-embodiment)” 的零‑shot (或低样本) 动作迁移。

UMI 的优点是 便携、低成本、硬件门槛低,不需要专门机器人或昂贵的动捕场地 /设备,就可以收集丰富的操作数据。

UMI 学得的策略是硬件无关 (hardware-agnostic) —— 也就是说,只要目标机器人能执行相应的末端轨迹 (end‑effector trajectory),就可以复用这些训练数据。

UMI 支持 双臂 (bimanual)动态 (dynamic)长时间 (long-horizon)精细 (precise) 操作,这些是传统简单 pick-and-place 数据集难以覆盖的。

各系统 / 扩展的详细介绍与改进

FastUMI

FastUMI 是对原版 UMI 的一次重大重设计 (redesign)。其目标是解决 UMI 原版在 硬件依赖性强、部署复杂 (需要 SLAM/视觉-惯性里程计 (VIO)/校准) 等方面的局限。

在 FastUMI 中,设计者采用了模块化、hardware‑independent (硬件无关 / 可插拔) 的结构 — 手持设备 (human demonstration) 和机器人端 (inference / deployment) 解耦 (decoupled design),使得多种不同机械臂 / gripper 都能适配。

FastUMI 用现成 (commercial off-the-shelf) 的追踪 / 跟踪设备 (比如 RealSense T265) 来获取末端执行器 (end-effector) 的 6‑DoF pose,替代 原版 UMI 可能依赖的开源 SLAM / VIO 流程 —— 这样一来部署更加简单、鲁棒,减少了对复杂视觉/SLAM 系统的依赖。

FastUMI 还提供配套软件工具 (data collection + conversion pipeline),使得数据收集和后续 imitation learning pipeline (例如 diffusion policy) 更加顺畅、高效。

基于 FastUMI 的数据,还出现了一个很大的数据集 —— FastUMI-100K。该数据集包含 **100,000+ 条演示轨迹 (trajectories)**,覆盖 54 种不同任务 + 数百种现实环境下的物体,涵盖单臂和双臂任务。

这些改进使得 UMI-style 方法在可扩展性 (scalability)多样性 (diversity)跨平台适用性 (robot‑agnostic)部署便利性 (plug-and-play) 上都有显著提升。

总结 FastUMI 相对 UMI 的改进

改进点
效果 / 意义
硬件无关 (decoupled / modular)
支持更多不同机器人 / gripper,适用性更广
用 RealSense/现成 tracking 替代复杂 SLAM/VIO
部署更简单、更稳定,降低门槛/复杂度
提供完整软件 pipeline / 工具支持
数据收集 + 转换 + 训练流程更顺畅、更自动化
构建大规模、多任务、多环境数据集 (100K trajectories)
为训练通用、强大的 visuomotor policy 提供数据基础

此外,FastUMI 的大规模数据集 (FastUMI-100K) 已被用于训练和验证多种机器人 manipulation 策略,展现出良好的**多样性 + 泛化能力 (generalization)**。

DEXOP

关于 DEXOP:在公开文献 /资料 (截至目前) 中,我在主要公开渠道 (arXiv, 官方论文列表, 综述等) 未能找到 与 DEXOP 同名、明确对应 “UMI 衍生/扩展” 的系统 — 无论是 “DEXOP robot manipulation interface” 还是 “DEXOP UMI” 都没有可靠记录。

有可能 “DEXOP” 是某个内部项目名、实验室名字,或是拼写 / 名称混淆 (比如可能是 “DexUMI” / “DexCap” / 其他类似名字) — 但公开文献 /官网中无足够信息确认。

因此 无法给出 DEXOP 的详细介绍/技术细节/与 UMI 的对比 (除非你能提供更具体的信息 / 来源)。

如果你是从某篇论文 /文章 /报告里看到 “DEXOP”,建议帮我贴一下原文出处,我可以帮你一起查 /分析。

ForceMimic

ForceMimic 是一种聚焦于 “**接触 (contact-rich)**” 操作 / manipulation 的系统 — 它不仅捕捉末端轨迹 (motion),还捕捉 **与环境交互时的力 (force / wrench)**。换句话说,它是 “force‑centric imitation learning + demonstration capture” 的系统。 (forcemimic.github.io)

其核心组件是 ForceCapture:一个轻量 (≈ 0.8 kg)、带 6‑轴力传感器 (six‑axis force sensor) 的手持设备 (或 adaptive gripper),可以捕捉末端与环境 (object) 的接触力 (interaction force),同时补偿重力 & 手部自身力 (gravity / self‑mass compensation),剔除人为施加 (打开/关闭 gripper) 的干扰力。 (forcemimic.github.io)

通过 ForceCapture,人类可以 “自然 (natural)、force‑aware (感知 /施加真实力)、robot‑free (不需要真实机器人)” 地执行复杂、接触丰富的操作 (例如蔬菜削皮 / 切割 /加力 /挤压 等) —— 这些是纯轨迹 (pose/pose‑trajectory) 模拟难以 capture 的。 (forcemimic.github.io)

基于 ForceMimic 收集的数据,作者设计了一个混合 (hybrid) imitation learning 算法 (HybridIL),该算法同时考虑 运动 + 力 (force + position) —— 在执行阶段 (robot) 会使用 hybrid force-position 控制 primitive,以执行预测出的 wrench‑position 参数,从而更好地处理 contact-rich 任务。 (forcemimic.github.io)

实验结果显示,与纯视觉 (vision-based) imitation learning 方法相比,ForceMimic 在 contact-rich 任务 (例如削皮) 上 成功率提升 ≈ 54.5% 相对。 (forcemimic.github.io)

总结 ForceMimic 的特点 / 作用

补足 UMI / FastUMI 等 “轨迹 + 视觉 (pose + RGB/RGB‑D)” 演示所忽略的 “力 / 接触力 (contact force)” 维度

使得机器人能学习到更真实、更丰富、更鲁棒 (robust) 的 manipulation 策略 — 特别是在接触、摩擦、依赖力反馈 (如切割、挤压、抓取摩擦) 的任务上

保持 “robot‑free demonstration” 优点,即人类演示也可直接被用于训练,而不需真实机器人

ActiveUMI

ActiveUMI 是最近 (2025) 提出的扩展 /改良 — 全名可能是 “Universal Manipulation Interface with Active Perception”。它除了收集末端轨迹 (end‑effector pose) +视觉 + gripper 状态,还 **捕捉人类演示者的头部 (head) 运动 /视角 (egocentric viewpoint / active perception)**。也就是说,它同时记录操作者 “人在看/观察 (视觉注意 attention / head motion)” 与 “在做 (手部 gripper 操作)”。

实现上,ActiveUMI 使用 便携 VR teleoperation 套件 (portable VR teleoperation kit) + 带传感器 (sensorized) 的手持控制器 (mirroring robot end‑effector) + 可穿戴计算单元 (wearable computer backpack) + calibration / alignment 模块,以保证在真实 “in-the-wild (多环境)” 下,也能高质量采集数据。

ActiveUMI 的关键创新是将 视角 / 观察 (viewpoint) 纳入 demonstration 数据 — 传统 UMI / FastUMI 往往使用末端 (wrist-mounted) 相机,只 capture “手臂 / gripper 视角 + 物体 +环境”,但这忽略了人类在执行 manipulation 时头部 /眼睛 /身体 是如何移动以获得重要视觉信息 (例如为了解遮挡、对齐、寻找目标、规避碰撞)。 ActiveUMI 认为这种 “active / egocentric perception” 对于训练 robust, generalizable, long‑horizon, occlusion‑resilient robot policy 是关键。

在他们的实验 (6 种复杂双臂 (bimanual) manipulation 任务) 中,仅基于 ActiveUMI 数据训练的策略,在 “训练分布 (in-distribution)” 任务上平均成功率约为 70%;在 “新对象 /新环境 (out-of-distribution / novel)” 设置下,也能保持约 56% 的成功率。相比没有 active perception (如 wrist-centric view) 的 baseline,成功率分别提升了 ~44% / ~38%。这表明头部 /视角信息 (active perception) 对复杂与长任务、视觉遮挡 (occlusion) 场景非常重要。

总之,ActiveUMI 将 “人类自然的观察 + 操作 (look + act)” 纳入 robot learning 的 demonstration pipeline,从而显著提高了 policy 的泛化能力和真实世界执行效果。

总结 ActiveUMI 的改进 /意义

引入 主动感知 (active egocentric perception) — 捕捉操作者头部/视角运动,使得训练的 policy 能学习 “什么时候看 (look)” vs “什么时候做 (act)”

保持 UMI 的硬件无关 / 随环境 (in‑the‑wild) 的可用性 + 可穿戴 + 便携性

显著提高对复杂、长程、遮挡、双臂任务的成功率和泛化能力

为构建更通用、更 robust、接近真实人类操作的数据驱动机器人策略铺平道路

UMI (及其衍生系统) 相对于传统动捕 (motion capture) / VR 数据采集的优势

1.低成本、便携 / 硬件门槛低

传统动捕 (motion capture, MoCap) 通常需要专门摄像头 (多摄像机)、标记 (markers)、受控光照 / 房间 /空间 —— 成本高、部署复杂。

UMI / FastUMI / ActiveUMI 则通过手持 gripper + 常见传感器 (摄像头, tracking camera) + 软件 pipeline,就能在“真实环境 (in‑the‑wild)”进行演示采集,适用性更强,更容易扩展。

2.硬件无关 (hardware-agnostic / cross‑embodiment)

UMI 的设计目标就是 decouple human demonstration 与具体机器人硬件 (gripper, arm)。这样,同一份演示数据可以用于多种不同机器人的训练 /部署 (只要它们能执行末端轨迹)。相较于传统 MoCap + 固定 robot-specific 数据采集,更灵活、更通用。

3.适用于复杂 /真实 /长‑任务 /双臂 /动态 操作

传统 MoCap 数据集通常限制在标准、受控环境 + 简单任务 (pick-and-place, reach, grasp);而 UMI 已被证明能 capture “dynamic, bimanual, long-horizon, precise” 操作。

衍生系统 (FastUMI, ActiveUMI, ForceMimic) 又进一步增强了多样性 (大数据集)、感知维度 (视觉 + 头部 / 力)、真实交互 (contact-rich) —— 更贴近现实世界中机器人应用所需的复杂性。

4.可扩展 / 可规模化 (scalable)

如 FastUMI-100K 提供了 100k+ trajectories,任务 / 物体 /环境 多样,非常适合用于训练通用型、大规模的 visuomotor 或 policy 模型 (类似语言 /视觉大模型那样的“foundation models for robots”)。

相比起来,传统 MoCap / VR 数据采集往往在规模上受限 (成本、环境、采集设备、标记复杂性等)。

5.Ease of data sharing / community adoption

由于硬件无关和标准化 pipeline,研究者 / 实验室之间更易分享 /复用演示数据。对于推动机器人学习研究 (尤其是 imitation learning / foundation model 方向) 很有帮助。

为什么 (以及在什么场景下) UMI (及其扩展) 比动捕 / VR数据采集 更有优势

当目标是“构建通用、多任务、多机器人 (cross‑embodiment) 的 visuomotor policy / foundation model” —— 传统 MoCap / VR 数据集一般专为特定机器人 /任务构建,不易复用;但 UMI-style 数据可跨平台,易复用/共享,非常适合构建大规模、通用化模型。

当我们需要大规模、多样化、现实环境 (in-the-wild) 的操作数据 —— MoCap 通常在受控实验室/环境下采集; UMI 可以在真实环境 (真实厨房 /房间 /办公室 /工厂等) 中收集操作,覆盖多样物体、多样任务、多人、多环境。

当硬件 /成本/部署便捷性 /可扩展性 是首要考量 —— UMI / FastUMI / ActiveUMI 的硬件要求低 (手持 gripper + 相机 + 追踪器 / VR kit),部署快速,不需要昂贵 MoCap 室、不需要标记、复杂校准,更容易进行大规模数据采集。

当任务需要真实交互 (contact-rich), 力 /接触感知,或者对视觉 + 触觉 / 力 感知有依赖 —— 使用像 ForceMimic 这样的系统,可以同时 capture motion + force,从而训练更 robust 的 contact‑aware 策略,这在传统只 capture motion (MoCap/VR) 的数据里是难以实现的。

因此,UMI 及其扩展在 机器人学习 (robot learning) 研究 / 开发 中,尤其对于 通用/可复用/规模化/多样任务/跨机器人平台 的需求,非常有价值。

总结 (我的看法 + 推荐)

UMI 是一个非常 有前途 (promising) 的 paradigm,用于收集 “人类自然操作 → 训练机器人 policy” 的数据。它以其便携、低成本、硬件无关、多样性、高通用性脱颖而出。

衍生系统如 FastUMI, ActiveUMI, ForceMimic 对 UMI 做了重要补强 — 分别在 部署简化 + 可扩展性、主动视觉 / 观察 / 感知, 接触 / 力感知 等方面,极大提升了系统的实用性与适用范围。

虽然相比专业 MoCap / 真实 robot 采集 (真实执行 + 高精度传感 /控制) 存在一定限制 (精度、传感 modality richness, 动态 /复杂物理交互 fidelity),但对于大规模、通用、跨任务、跨平台的机器人 learning 系统 (尤其是以 imitation learning /foundation model 为目标)——UMI-style 系统是非常有价值 /甚至必不可少的。

如果目标是在学术 /研究 /原型 (prototype) /通用 robot policy 构建阶段 (而不是特定工业 /高精度 /高安全性应用),我认为 未来趋势可能是 UMI + 衍生系统 (FastUMI, ActiveUMI, ForceMimic 等) 与传统 robot execution +高保真感知 (触觉 /力 /物理仿真) 的混合 (hybrid) pipeline,兼顾 可规模化数据 & 高保真物理 /控制

【声明】内容源于网络
0
0
Xbotics具身智能实验室
学习机器人与具身智能技术:1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。
内容 353
粉丝 0
Xbotics具身智能实验室 学习机器人与具身智能技术:1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。
总阅读144
粉丝0
内容353