训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享- 大数跨境

首页

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

量子位

2026-01-08

导读：“国内UMI能训出模型的就三家”

衡宇发自凹非寺
量子位 | 公众号 QbitAI

“我们只交付100%可以复现的轨迹。”

在鹿明机器人媒体沟通会上，联席CTO丁琰围绕具身智能数据采集的现状、挑战及前沿方案UMI进行了深度分享。

他指出，许多团队误以为模型训练失败源于算法或算力不足，实则问题根源早在数据生成阶段就已埋下。若输入数据本身不可靠，后续堆叠模型与算力只是加速错误。

丁琰博士毕业于美国纽约州立大学计算机学院，研究方向为机器人学与具身智能。加入鹿明前，曾任一星机器人CTO，并在上海AI Lab担任研究员。自2024年3月起专注UMI方向，是大陆最早投身该领域的实践者之一。

UMI（Universal Manipulation Interface）由斯坦福大学于2024年2月提出，旨在通过解耦机器人本体，将人类操作中的“意图+轨迹+多模态感知”统一至通用接口，供各类机器人学习复现。

2024年9月前，UMI尚属冷门方向。随着具身智能进入下半场，数据成为核心瓶颈，其价值逐步凸显。

当前行业应对数据难题主要有四种路径：

遥操作数据：代表企业为智元机器人
仿真数据：银河通用机器人为代表
人类视频数据：它石智能为主要实践者
UMI：自2024年9月兴起，鹿明为典型代表

基于实际需求，鹿明推出无本体数采硬件FastUMI Pro，适配主流机械臂与夹爪，重量约600克，负载达2–3公斤，适用于工厂与家庭场景。

设备支持触觉、听觉、六维力等多模态输入，在空间精度上实现1mm误差，据称达全球领先水平。

硬件之外，鹿明构建了涵盖数据采集与模型训练的完整生态。以“可复现”为第一性原理，团队建立8道工业级数据质量评估体系，承诺仅交付100%可复现轨迹。

（以下内容根据丁琰分享整理，保留原意）

具身数采的现存痛点

自2024年3月起，我持续投入UMI研发，应为大陆最早开展该方向的人员之一。

具身智能依赖海量高质量数据，但当前面临显著痛点。

首要问题是成本高昂。在美国，采集一小时训练数据需100–200美元。现有模型如PI 0和GEN 0分别使用1万和27万小时数据，远小于GPT-3规模。

估算显示，达到GPT-3级别需约7.9亿小时数据，按当前价格将耗资数百亿美元。

其次，采集效率低下。2023至2024年间主流采用遥操作，每小时仅能获取约35条有效数据，效率低且成本难控。

更严重的是数据孤岛问题：因遥操记录的是特定机械臂的动作与视角，不同机器人间难以共享数据，导致重复建设与隐性成本上升。

用UMI数采，为何仍训不出模型？

近期我在社交平台发布《你为什么训练不出来UMI的模型？》，试图揭示行业深层现状。

尽管UMI设备日益增多，宣称低成本、即插即用、快速部署，但真正成功训练出可用模型的团队极少，屈指可数。

国外如Sunday、Generalist已有成果；国内仅有鹿明、清华、上交等两三家实现稳定输出。

多数情况表现为：无法收敛、仅能在相似条件下运行几秒demo，动作卡顿不流畅。

常见归因包括“算法不成熟”“模型太小”“数据量不足”，但这些并非根本原因。

真正症结在于——从数据生成之初就不符合训练要求。

大量UMI数据在源头即不合格，不具备进入训练管线的基本条件。

什么是可以训练的UMI数据

有人误认为UMI只需用人手持夹具录制视频即可，操作简单。

实际上，UMI本质是AI对物理世界交互行为的理解与复现，需满足严格条件。

其一，画面与动作必须严格对齐，空间位置精准匹配；其二，多传感器之间需实现毫秒级同步。

例如，人伸手取水瓶时若视觉与动作延迟数秒，则无法完成抓取。

理想的UMI轨迹应在物理空间中可稳定复现，数据结构需具备高一致性、高密度与时序完整性。

为什么大多数UMI设备采不到好数据？

当前多数UMI设备难以产出合格数据，主因有二。

一是硬件性能不足。CMOS组件或主控芯片性能差，导致视野受限、画质低劣、曝光异常、帧率波动，破坏视觉与动作的因果关系，使模型无法学习。

二是系统设计缺陷。市面上不少产品由现成模块拼接而成，依赖USB Hub连接，带宽竞争严重，易出现掉帧等问题，数据稳定性差，难以支撑复现。

从硬件层面看，这类设备从起点就无法生成可用于训练的数据。

“脏数据”与“废数据”

即便设备达标，数据质量仍不保证。

数据质量关键不在“干净”，而在信息密度。

低质量数据包含抖动、漂移、时间错位等噪声，在单视角场景下无法通过增加数据量消除，严重影响策略学习效果。

此类“脏数据”虽有助于识别物体类别，但无法支撑精确物理交互建模。

此外还存在“废数据”——完全照搬人类自然行为，未经优化设计。

例如叠衣任务需特定技巧：抖动方向、速度控制等，而普通人操作往往忽略这些细节。

各具身公司均有独有采集技巧，若未注入专业方法，即使使用高端设备，所得数据仍难以用于训练。

此类数据短期内无法利用，故称为“废数据”。未来或随模型进步被激活，但现阶段基本无效。

硬件、数据与算法环环相扣

UMI工程范式需系统自洽，而非功能拼接。

传统机器人开发流程为“硬件→软件→算法→补数据”，但在UMI场景下此路径失效。

UMI是强耦合系统：硬件决定数据质量，数据决定模型性能，算法反向约束硬件执行与数据设计。

三者紧密关联，任一环节失效都将导致整体失败。

关于UMI，团队做了什么

自2024年3月起，我带领团队聚焦UMI研发。此前该领域在国内近乎空白。

我们的目标是打破高质量数据获取的“不可能三角”，实现低成本、高效率、规模化供给，推动行业发展。

FastUMI

作为通讯作者，我主导FastUMI项目，将斯坦福2024年2月提出的UMI学术框架升级为工业级系统。

项目于2024年3月启动，7–8月完成，同年9月被CoRL 2025录用，成为全球首个实现UMI工业落地的系统。

核心解决数据采集效率与质量两大难题。

FastUMI 100K

在软硬件系统稳定后，团队在上海AI Lab搭建专用采集长廊，11人三个月内完成10万条真机数据采集。

建成全球首个大规模UMI数据集，积累丰富数据治理经验。

Fastumi-MLM

首次将UMI技术应用于“狗+臂”构型机器人，突破原有单臂、双臂或轮式双臂限制，为大陆首例。

其他工作

还包括Spatial VLA、Agibot World、AskVLA等系列研究，持续拓展UMI应用场景与能力边界。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14609

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读107.9k

粉丝0

内容14.6k