大数跨境
0
0

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 量子位
2026-01-08
10
导读:“国内UMI能训出模型的就三家”
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

“我们只交付100%可以复现的轨迹。”

在鹿明机器人媒体沟通会上,联席CTO丁琰围绕具身智能数据采集的现状、挑战及前沿方案UMI进行了深度分享。

他指出,许多团队误以为模型训练失败源于算法或算力不足,实则问题根源早在数据生成阶段就已埋下。若输入数据本身不可靠,后续堆叠模型与算力只是加速错误。

丁琰博士毕业于美国纽约州立大学计算机学院,研究方向为机器人学与具身智能。加入鹿明前,曾任一星机器人CTO,并在上海AI Lab担任研究员。自2024年3月起专注UMI方向,是大陆最早投身该领域的实践者之一。

UMI(Universal Manipulation Interface)由斯坦福大学于2024年2月提出,旨在通过解耦机器人本体,将人类操作中的“意图+轨迹+多模态感知”统一至通用接口,供各类机器人学习复现。

2024年9月前,UMI尚属冷门方向。随着具身智能进入下半场,数据成为核心瓶颈,其价值逐步凸显。

当前行业应对数据难题主要有四种路径:

  • 遥操作数据:代表企业为智元机器人

  • 仿真数据:银河通用机器人为代表

  • 人类视频数据:它石智能为主要实践者

  • UMI:自2024年9月兴起,鹿明为典型代表

基于实际需求,鹿明推出无本体数采硬件FastUMI Pro,适配主流机械臂与夹爪,重量约600克,负载达2–3公斤,适用于工厂与家庭场景。

设备支持触觉、听觉、六维力等多模态输入,在空间精度上实现1mm误差,据称达全球领先水平。

硬件之外,鹿明构建了涵盖数据采集与模型训练的完整生态。以“可复现”为第一性原理,团队建立8道工业级数据质量评估体系,承诺仅交付100%可复现轨迹。

(以下内容根据丁琰分享整理,保留原意)

具身数采的现存痛点

自2024年3月起,我持续投入UMI研发,应为大陆最早开展该方向的人员之一。

具身智能依赖海量高质量数据,但当前面临显著痛点。

首要问题是成本高昂。在美国,采集一小时训练数据需100–200美元。现有模型如PI 0和GEN 0分别使用1万和27万小时数据,远小于GPT-3规模。

估算显示,达到GPT-3级别需约7.9亿小时数据,按当前价格将耗资数百亿美元。

其次,采集效率低下。2023至2024年间主流采用遥操作,每小时仅能获取约35条有效数据,效率低且成本难控。

更严重的是数据孤岛问题:因遥操记录的是特定机械臂的动作与视角,不同机器人间难以共享数据,导致重复建设与隐性成本上升。

用UMI数采,为何仍训不出模型?

近期我在社交平台发布《你为什么训练不出来UMI的模型?》,试图揭示行业深层现状。

尽管UMI设备日益增多,宣称低成本、即插即用、快速部署,但真正成功训练出可用模型的团队极少,屈指可数。

国外如Sunday、Generalist已有成果;国内仅有鹿明、清华、上交等两三家实现稳定输出。

多数情况表现为:无法收敛、仅能在相似条件下运行几秒demo,动作卡顿不流畅。

常见归因包括“算法不成熟”“模型太小”“数据量不足”,但这些并非根本原因。

真正症结在于——从数据生成之初就不符合训练要求。

大量UMI数据在源头即不合格,不具备进入训练管线的基本条件。

什么是可以训练的UMI数据

有人误认为UMI只需用人手持夹具录制视频即可,操作简单。

实际上,UMI本质是AI对物理世界交互行为的理解与复现,需满足严格条件。

其一,画面与动作必须严格对齐,空间位置精准匹配;其二,多传感器之间需实现毫秒级同步。

例如,人伸手取水瓶时若视觉与动作延迟数秒,则无法完成抓取。

理想的UMI轨迹应在物理空间中可稳定复现,数据结构需具备高一致性、高密度与时序完整性。

为什么大多数UMI设备采不到好数据?

当前多数UMI设备难以产出合格数据,主因有二。

一是硬件性能不足。CMOS组件或主控芯片性能差,导致视野受限、画质低劣、曝光异常、帧率波动,破坏视觉与动作的因果关系,使模型无法学习。

二是系统设计缺陷。市面上不少产品由现成模块拼接而成,依赖USB Hub连接,带宽竞争严重,易出现掉帧等问题,数据稳定性差,难以支撑复现。

从硬件层面看,这类设备从起点就无法生成可用于训练的数据。

“脏数据”与“废数据”

即便设备达标,数据质量仍不保证。

数据质量关键不在“干净”,而在信息密度。

低质量数据包含抖动、漂移、时间错位等噪声,在单视角场景下无法通过增加数据量消除,严重影响策略学习效果。

此类“脏数据”虽有助于识别物体类别,但无法支撑精确物理交互建模。

此外还存在“废数据”——完全照搬人类自然行为,未经优化设计。

例如叠衣任务需特定技巧:抖动方向、速度控制等,而普通人操作往往忽略这些细节。

各具身公司均有独有采集技巧,若未注入专业方法,即使使用高端设备,所得数据仍难以用于训练。

此类数据短期内无法利用,故称为“废数据”。未来或随模型进步被激活,但现阶段基本无效。

硬件、数据与算法环环相扣

UMI工程范式需系统自洽,而非功能拼接。

传统机器人开发流程为“硬件→软件→算法→补数据”,但在UMI场景下此路径失效。

UMI是强耦合系统:硬件决定数据质量,数据决定模型性能,算法反向约束硬件执行与数据设计。

三者紧密关联,任一环节失效都将导致整体失败。

关于UMI,团队做了什么

自2024年3月起,我带领团队聚焦UMI研发。此前该领域在国内近乎空白。

我们的目标是打破高质量数据获取的“不可能三角”,实现低成本、高效率、规模化供给,推动行业发展。

FastUMI

作为通讯作者,我主导FastUMI项目,将斯坦福2024年2月提出的UMI学术框架升级为工业级系统。

项目于2024年3月启动,7–8月完成,同年9月被CoRL 2025录用,成为全球首个实现UMI工业落地的系统。

核心解决数据采集效率与质量两大难题。

FastUMI 100K

在软硬件系统稳定后,团队在上海AI Lab搭建专用采集长廊,11人三个月内完成10万条真机数据采集。

建成全球首个大规模UMI数据集,积累丰富数据治理经验。

Fastumi-MLM

首次将UMI技术应用于“狗+臂”构型机器人,突破原有单臂、双臂或轮式双臂限制,为大陆首例。

其他工作

还包括Spatial VLA、Agibot World、AskVLA等系列研究,持续拓展UMI应用场景与能力边界。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14609
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读107.9k
粉丝0
内容14.6k