大数跨境

探访北京“机器人数据工厂”:120台机器人教AI看懂世界

探访北京“机器人数据工厂”:120台机器人教AI看懂世界 京城机电
2026-03-24
6
图片


媒体聚焦



近日,由京城机电牵头成立的北京人形机器人创新中心举行具身智能机器人数据采集与训练基地参访活动,基地一期自建成不到半年,已发展成为国内场景覆盖最齐全、机器人构型最丰富、数据产能及质量最高的专业化数据采集平台之一。

首都建设报记者走进现场进行深度采访,并以《探访北京“机器人数据工厂”:120台机器人教AI看懂世界》为题进行报道。

全文报道

一起来看

走进北京亦庄一栋灰色建筑,仿佛闯入了一个正在高速运转的“机器人寄宿学校”。一侧是家庭厨房,灶台上的炒锅还温热;另一侧是商超货架,矿泉水、橙子、洗衣液琳琅满目;转角处是标准办公室,工位、会议桌一应俱全。穿梭其间的“学员”——双足人形机器人“天工”正在货架前反复抓取饮料,轮式的“天轶”在办公区练习避障,几只机械臂不知疲倦地重复着“抓取-放置”的动作。

数据采集与训练基地

这座近5000平方米的“数据工厂”,正以每月最高1.5万小时的速度,产出全球稀缺的高质量机器人实采数据,向着“全球首个百万小时高质量数据集”的目标全速冲刺。

“方言”不通、场景割裂


机器人“上学 ” 先过三关


外人看来井然有序的场景,在北京人形机器人创新中心具身天工事业部负责人、具身智能机器人数据与训练基地负责人蒋未来眼中,却是另一番图景:“真实世界的每个变量,都可能成为算法的‘拦路虎’。”

人形机器人应用场景

这正是人形机器人从实验室走向千行百业的核心难题。不同品牌机器人“方言”不通——A品牌的数据B品牌用不了;场景千差万别——家庭厨房的操作逻辑无法直接迁移到商超货架;数据质量参差不齐——任何一个采集环节的偏差都可能产出“垃圾数据”。

这座基地正是为破解这些难题而生。从家居到商超,从办公到工业,从医药到康养,30余个典型应用场景被“搬”进室内,每一个场景都不是静态的,而是可动态配置的“数据工厂”——光照条件能调,物体摆放能换,人员动线能改。与之匹配的是全国构型最丰富的机器人矩阵:超过120台主流机器人设备,既有北京人形机器人创新中心自主研发的“天工”“天轶”,也有Aloha、宇树、优必选、Franka等国内外品牌,双足人形、轮式、机械臂、复合型机器人同场“学习”,只为产出能跨越不同本体、适应不同环境的多源异构数据。

每一个场景布置都遵循着“真实、泛化、可复用”的数据采集原则。基地内还建有约200平方米的专业光学动作捕捉场地,通过高精度动捕技术,为机器人拟人化动作的精细度与流畅度提供“显微镜”级的采集标准。

从50%到95%


一场数据质量的“攻坚战”


在基地的数据中控大屏上,实时跳动着每台机器人的工作状态、数据采集进度和质量合格率。目前,这个数字稳定在95%以上。

“三个月前,只有50%左右。”蒋未来毫不讳言那段“至暗时刻”。

问题出在哪里?一个典型案例是“曝光门”。一次采集任务中,操作员严格按照规范执行了所有动作,但数据上传质检平台后却发现,某个关键操作部位因灯光角度问题严重反光,画面一片惨白——整条数据只能作废。

“灯太亮不行,靠窗的自然光变化也不行,操作员的手无意中遮挡一下更不行。”蒋未来说,“这些都是坐在办公室里绝对想不到的细节。”

为了把这50%提升到95%,基地建立了一套完整的“工业化”数据生产流程:采集环节,操作员上岗前需通过标准化动作考核,确保同一任务在不同时间、不同人员执行下的一致性;标注环节,建立多层复核机制,关键动作节点双重校验,只有结果一致才进入下一环节;质检环节,实施“三审制”——一审动作完整性,二审标注准确性,三审场景泛化性。

更重要的是,质检发现的问题会“追溯”回前端。“曝光问题出现后,我们就制定了灯光角度和遮光规范;操作流畅度不够,就细化动作分解标准。”蒋未来形容这像工厂里的“全面质量管理”,让每一个环节的问题都能驱动源头改进。

如今,这座“数据工厂”的质检体系已经能够识别出从操作规范到环境干扰、从动作轨迹到标注精度的数十类潜在问题,确保每一条出厂数据都经过严格把关。北京人形机器人创新中心通过牵头制定国内首个具身智能数据采集行业标准《人工智能具身智能数据采集规范》,制定标准化专业化的采集流程规范,数据基地已为多家头部企业及科研机构交付超数万小时高质量数据,整体数据合格率稳定在95%以上。在这里,每一小时数据都经过严格把关,确保“出厂合格率”95%以上;在这里,不同构型的机器人可以并行采集,规模化生产高质量数据,让算法团队不再为“数据荒”发愁。这不仅是效率的提升,更是数据生产能力迈向专业化、规模化的重要跨越。


全栈采集能力


让机器人习得“物理直觉”

在基地一角,几名穿着动作捕捉服的工作人员正在执行精细操作任务。他们的动作轨迹被高精度摄像头实时捕捉,同步传输给旁边的机器人。200平方米的专业光学动捕场地内,从关节细微转动到指尖力度变化,都被完整记录。

“真机数据能精准还原力觉反馈、触觉信息、环境干扰等仿真难以复制的细节,这些‘物理直觉’只能通过真机采集的多模态数据来训练。”蒋未来解释。

这里配备的全栈式采集装备矩阵堪称豪华:头环式、夹爪式等轻量化采集设备适用于快速部署与规模化采集;高精度动作捕捉服X-sense、动捕手套可精准捕捉人体关节的细微转动,让机器人习得“人的手感”;远程遥操驾舱则支持操作员在千里之外实现真机同步操控。基于此,基地具备了真机遥操作、开放环境采集、动作捕捉采集三大核心采集能力,可满足不同算法路线对数据模态的差异化需求。

两万小时交付背后


“数据飞轮”加速转动


截至目前,这座“数据工厂”已对外市场化交付超两万小时高质量实采数据,服务客户涵盖多家头部企业及科研机构。数据下载量与交付能力均位居行业前列。

这些数据流向哪里?约70%的产能用于服务外部客户,以模型研发团队为主。“他们要训模型,需要足够的数据源。无论是训练VLA(视觉语言动作)模型,还是训练‘大脑’层面的认知能力,对高质量实采数据的需求都非常大。”蒋未来说。

随着通用机器人平台“天工”在越来越多场景落地应用,这里的“数据飞轮”效应正在加速启动——更多场景带来更多数据,更多数据吸引更多开发者与算法模型,反过来推动数据需求的指数级增长。

走出基地大门,夕阳洒在亦庄的街道上。不远处,越来越多机器人产业链企业正在这片区域聚集。从整机到零部件,从硬件到具身智能服务,一个围绕人形机器人的产业生态正在悄然成形。

作为具身智能领域的“国家队”,北京人形机器人创新中心自诞生之日起便肩负着突破关键核心技术、构建自主产业生态的使命。这座数据基地的建成投运,不仅是产能的突破,更是我国在具身智能时代抢占数据战略制高点、构筑全球竞争力的关键落子。

“让机器人真正走进千行百业、走进千家万户,数据就是那个基石。”蒋未来说。


来源:首都建设报、北京人形机器人创新中心
出品:宣传部
图片
图片
图片
图片
图片
凝心聚力开启“十五五”战略新征程——京城机电召开二届四次职代会暨2026年工作会
一图读懂 | 京城机电2026年工作报告
京城机电召开党的二十届四中全会精神宣讲报告会
北京亦城星开科技产业发展有限公司正式揭牌
北京巴威斩获全球单机规模最大光热发电项目核心装备订单

【声明】内容源于网络
0
0
京城机电
北京京城机电控股有限责任公司官微公众账号
内容 794
粉丝 0
京城机电 北京京城机电控股有限责任公司官微公众账号
总阅读30
粉丝0
内容794