大数跨境

中国具身模型狂揽全球第一!机器人的人类数据时代来了

中国具身模型狂揽全球第一!机器人的人类数据时代来了 量子位
2026-04-11
4
导读:10万小时数据集,00后创业灵初智能一战成名
报道:鹭羽

00后团队引领创新,以10万小时人类操作数据实现具身智能重大突破,推动行业跨越式发展。

当业界仍在Sim2Real阶段探索时,灵初智能00后团队已基于近10万小时人类数据完成技术突破,数据规模远超行业现有水平。目前行业数据集多集中于数千至数万小时量级,英伟达EgoScale最大仅2万小时视频数据,而灵初直接跃升新台阶,其中1000小时已开源。

本次直播由AI博主弗兰克与灵初智能联合创始人陈源培解析技术内核,核心聚焦两大方向:优化数据输入与模型架构设计。

灵初智能摒弃空谈,通过直接对齐人类数据,采用Psi-R2与Psi-W0双系统架构实现场景落地。其Psi-R2模型在MolmoSpace榜单登顶,该评测由美国艾伦人工智能研究所(AllenAI)发起,汇聚NVIDIA、PI等全球顶尖团队。

Psi-R2显著超越PI、DreamZero等国际知名模型,成功率较同类VLA模型提升近10倍,跻身行业第一梯队。

灵初智能发布全球首个可直接用于预训练的大规模人类手部操作全模态数据集,现回溯直播要点。

10万小时数据突破具身智能瓶颈

为何数据是行业关键制约

具身智能与自动驾驶、大语言模型存在本质差异:后两者依托互联网沉淀海量数据,而物理世界的复杂性导致具身智能缺乏成熟数据集。

灵初智能研判:面向商业化落地,纯人类数据训练不可或缺。人类数据可提供经商业验证的标准作业流程(SOP),数据采集成本仅为机器人方案的1/10以下,且操作速度可达机械臂物理极限(1200),超越遥操作上限(800),契合工厂高节拍需求。

本体差异挑战与解决方案

人类与机器人存在本体差异(embodiment gap),直接复用数据会导致运动学结构不匹配。灵初采用"Raw Data In, Raw Data Out"策略,舍弃复杂人工处理,通过运动学对齐实现人类关节与机器人本体衔接。

数据集整合真机数据(5417小时)与人类数据(95472小时),总计10万小时,覆盖294种场景、4821种任务及1382种物体。触觉数据弥补动力学差异,显著提升世界模型预测精度。经此预训练,机器人仅需不足100条轨迹真机数据即可完成微调,实现泛化能力与操作精度突破。

数据信噪比的核心价值

数据信噪比决定训练效果,低信噪比数据反致模型性能下降。关键评估维度:

1. 数据集分布:操作任务多样性 > 物体多样性 >> 场景多样性。预训练阶段覆盖更多任务与对象,可加速模型接手新任务的能力。

2. 感知模态:精准3D位姿 >> 触觉模态 > 2D图像特征。人手全域3D位姿追踪对2D到3D转化及机器人动力学匹配至关重要。

灵初平衡精准可复现数据与粗糙泛化数据,保障模型精度与泛化双优。

双系统架构驱动智能进阶

灵初全新发布Psi双系统架构,实现技术协同:

Psi-R2:精细操作引擎

作为世界行动模型(WAM),Psi-R2以图像和语言指令为输入,输出未来操作视频与可执行动作。依托10万+小时数据训练,采用Wan2.2-IT2V-5B-480P骨干网络,通过亚毫米级手部轨迹捕捉(如外骨骼手套),确保操作细节精准复现。经DiT缓存等优化,推理速度压缩至100毫秒内。

Psi-W0:反事实推理核心

作为动作条件型世界模型(AC-WM),Psi-W0输入机器人动作,输出场景预测视频。其核心价值在于引入30%失败样本训练,构建反事实推理能力:既评估Psi-R2策略准确性,又通过强化学习将人类动作转换为机器人可执行指令。

两模型形成闭环数据飞轮:Psi-W0模拟场景供Psi-R2演练,并持续生成优质数据反哺训练。系统由此实现长程任务规划、任务自主恢复及多场景复杂任务适配。

开源战略加速商业落地

灵初智能聚焦技术落地,宣布与北京石景山共建数据采集厂,并同腾讯云、抖音等达成生态合作。其战略逻辑明晰:开源是突破时间与数据稀缺的关键杠杆。

对行业而言,开源打破技术孤岛,建立开发者生态;对企业自身,则快速扩充数据闭环。具身智能的发展路径,始于实验室而终于真实场景——这恰是检验技术的核心标准。

灵初智能以10万小时数据集与双系统架构验证:兼具技术创新勇气与场景落地能力,方为具身智能破局之道。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15000
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读176.1k
粉丝0
内容15.0k