衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
“我们只交付100%可以复现的轨迹。”
在鹿明机器人媒体沟通会上,联席CTO丁琰围绕具身智能数据采集的现状、挑战及前沿方案UMI进行了深度分享。
他指出,许多团队误以为模型训练失败源于算法或算力不足,实则问题根源早在数据生成阶段就已埋下。若输入数据本身不可靠,后续堆叠模型与算力只是加速错误。
丁琰博士毕业于美国纽约州立大学计算机学院,研究方向为机器人学与具身智能。加入鹿明前,曾任一星机器人CTO,并在上海AI Lab担任研究员。自2024年3月起专注UMI方向,是大陆最早投身该领域的实践者之一。
UMI(Universal Manipulation Interface)由斯坦福大学于2024年2月提出,旨在通过解耦机器人本体,将人类操作中的“意图+轨迹+多模态感知”统一至通用接口,供各类机器人学习复现。
2024年9月前,UMI尚属冷门方向。随着具身智能进入下半场,数据成为核心瓶颈,其价值逐步凸显。
当前行业应对数据难题主要有四种路径:
遥操作数据:代表企业为智元机器人
仿真数据:银河通用机器人为代表
人类视频数据:它石智能为主要实践者
UMI:自2024年9月兴起,鹿明为典型代表
基于实际需求,鹿明推出无本体数采硬件FastUMI Pro,适配主流机械臂与夹爪,重量约600克,负载达2–3公斤,适用于工厂与家庭场景。
设备支持触觉、听觉、六维力等多模态输入,在空间精度上实现1mm误差,据称达全球领先水平。
硬件之外,鹿明构建了涵盖数据采集与模型训练的完整生态。以“可复现”为第一性原理,团队建立8道工业级数据质量评估体系,承诺仅交付100%可复现轨迹。
(以下内容根据丁琰分享整理,保留原意)具身数采的现存痛点
自2024年3月起,我持续投入UMI研发,应为大陆最早开展该方向的人员之一。
具身智能依赖海量高质量数据,但当前面临显著痛点。
首要问题是成本高昂。在美国,采集一小时训练数据需100–200美元。现有模型如PI 0和GEN 0分别使用1万和27万小时数据,远小于GPT-3规模。
估算显示,达到GPT-3级别需约7.9亿小时数据,按当前价格将耗资数百亿美元。
其次,采集效率低下。2023至2024年间主流采用遥操作,每小时仅能获取约35条有效数据,效率低且成本难控。
更严重的是数据孤岛问题:因遥操记录的是特定机械臂的动作与视角,不同机器人间难以共享数据,导致重复建设与隐性成本上升。
用UMI数采,为何仍训不出模型?
近期我在社交平台发布《你为什么训练不出来UMI的模型?》,试图揭示行业深层现状。
尽管UMI设备日益增多,宣称低成本、即插即用、快速部署,但真正成功训练出可用模型的团队极少,屈指可数。
国外如Sunday、Generalist已有成果;国内仅有鹿明、清华、上交等两三家实现稳定输出。
多数情况表现为:无法收敛、仅能在相似条件下运行几秒demo,动作卡顿不流畅。
常见归因包括“算法不成熟”“模型太小”“数据量不足”,但这些并非根本原因。
真正症结在于——从数据生成之初就不符合训练要求。
大量UMI数据在源头即不合格,不具备进入训练管线的基本条件。
什么是可以训练的UMI数据
有人误认为UMI只需用人手持夹具录制视频即可,操作简单。
实际上,UMI本质是AI对物理世界交互行为的理解与复现,需满足严格条件。
其一,画面与动作必须严格对齐,空间位置精准匹配;其二,多传感器之间需实现毫秒级同步。
例如,人伸手取水瓶时若视觉与动作延迟数秒,则无法完成抓取。
理想的UMI轨迹应在物理空间中可稳定复现,数据结构需具备高一致性、高密度与时序完整性。
为什么大多数UMI设备采不到好数据?
当前多数UMI设备难以产出合格数据,主因有二。
一是硬件性能不足。CMOS组件或主控芯片性能差,导致视野受限、画质低劣、曝光异常、帧率波动,破坏视觉与动作的因果关系,使模型无法学习。
二是系统设计缺陷。市面上不少产品由现成模块拼接而成,依赖USB Hub连接,带宽竞争严重,易出现掉帧等问题,数据稳定性差,难以支撑复现。
从硬件层面看,这类设备从起点就无法生成可用于训练的数据。
“脏数据”与“废数据”
即便设备达标,数据质量仍不保证。
数据质量关键不在“干净”,而在信息密度。
低质量数据包含抖动、漂移、时间错位等噪声,在单视角场景下无法通过增加数据量消除,严重影响策略学习效果。
此类“脏数据”虽有助于识别物体类别,但无法支撑精确物理交互建模。
此外还存在“废数据”——完全照搬人类自然行为,未经优化设计。
例如叠衣任务需特定技巧:抖动方向、速度控制等,而普通人操作往往忽略这些细节。
各具身公司均有独有采集技巧,若未注入专业方法,即使使用高端设备,所得数据仍难以用于训练。
此类数据短期内无法利用,故称为“废数据”。未来或随模型进步被激活,但现阶段基本无效。
硬件、数据与算法环环相扣
UMI工程范式需系统自洽,而非功能拼接。
传统机器人开发流程为“硬件→软件→算法→补数据”,但在UMI场景下此路径失效。
UMI是强耦合系统:硬件决定数据质量,数据决定模型性能,算法反向约束硬件执行与数据设计。
三者紧密关联,任一环节失效都将导致整体失败。
关于UMI,团队做了什么
自2024年3月起,我带领团队聚焦UMI研发。此前该领域在国内近乎空白。
我们的目标是打破高质量数据获取的“不可能三角”,实现低成本、高效率、规模化供给,推动行业发展。
FastUMI
作为通讯作者,我主导FastUMI项目,将斯坦福2024年2月提出的UMI学术框架升级为工业级系统。
项目于2024年3月启动,7–8月完成,同年9月被CoRL 2025录用,成为全球首个实现UMI工业落地的系统。
核心解决数据采集效率与质量两大难题。
FastUMI 100K
在软硬件系统稳定后,团队在上海AI Lab搭建专用采集长廊,11人三个月内完成10万条真机数据采集。
建成全球首个大规模UMI数据集,积累丰富数据治理经验。
Fastumi-MLM
首次将UMI技术应用于“狗+臂”构型机器人,突破原有单臂、双臂或轮式双臂限制,为大陆首例。
其他工作
还包括Spatial VLA、Agibot World、AskVLA等系列研究,持续拓展UMI应用场景与能力边界。

