

数据越多，人形机器人越智能

上海数据科技有限公司

2025-11-10

导读：数据已成为具身智能发展的最大瓶颈。人们感觉日常生活中的人形机器人好像并没有那么聪慧、灵动，这背后一个制约因素就是数据不够。

人形机器人正在全球范围内加速狂奔，却突然被一道看不见的“数据关”拦住了去路。

在这场看似火热的狂奔背后，整个行业正面临着一个巨大瓶颈——数据。具身智能需要的高维、连续、动态场景数据极度匮乏，真机采集成本高得惊人，仿真数据又难以完全弥合虚拟与现实的差距。

这道数据关不仅关系到机器人能否真正智能，更决定着具身智能市场能否从预言变为现实。

全球首场人形机器人半程马拉松。比赛中暴露的问题远比成绩更有说服力——有的机器人跑到“头掉”，最后用胶带粘着脑袋完成比赛；有的起跑就摔倒，原地鲤鱼打挺后继续前进；还有的跑得冒烟，工作人员不得不拿着冷却液冲上去抢救。

这场马拉松更像是一次极限压力测试，揭示了人形机器人在持久运动中的脆弱性。赛事是整个团队包括工程师、操控员、领跑员的综合比拼。

真机数据的稀缺在这场马拉松中暴露无遗。每个机器人的跌倒、故障、能量管理问题都成为了宝贵的数据点，为后续改进提供了方向。

业内专家指出，数据已成为具身智能发展的最大瓶颈。人们感觉日常生活中的人形机器人好像并没有那么聪慧、灵动，这背后一个制约因素就是数据不够。

具身智能需要的是多模态数据，包括图文数据、视频数据、真机数据以及合成数据。每种数据都有其价值。

当前国内外一些大型企业采用遥控操作方式采集真机数据，但这种方法成本高昂且难以获得大规模数据。要获取足够支撑人形机器人“干活”的真机数据，需要全球一起努力。

面对这一困境，行业正在探索多种解决方案。通过大规模生产和使用合成数据来训练人形机器人，不仅成本低廉，还明显提升了数据获取效率。

结合合成数据与真实数据是一种可行方法——用大量的合成数据让机器人做预训练，用真机数据做后训练，完成人形机器人训练的“最后一公里”。

具身智能机器人需要的是高维、连续、动态的场景数据，数据形态从一维、二维转向空间和时间结合的三维、四维，获取难度大、代价高。

整个行业现阶段严重缺乏数据，拥有的具身智能交互数据只有几百万条，实际所需的规模可能在上千万甚至上亿万条。

效果最好、最真实可靠的是机器人真机采集数据，但数据采集量有限，且成本高昂，难以满足构建通用智能的需要。业界目前已经逐渐形成共识，使用真实数据为辅、合成数据为主的训练模式。

随着大模型的持续部署，机器人不仅能够调用“全世界的知识”，更能在复杂环境中实现环境理解，认知行为推理，以及长尾场景下的快速适应与学习。

未来的机器人是能在非结构化环境中工作的系统，不是像工业机器人那样在固定路线、固定环境中工作，而是能在动态变化的环境中感知、理解、行动。

【声明】内容源于网络

上海数据科技有限公司

1234

内容 50

粉丝 0

上海数据科技有限公司 1234

总阅读371

粉丝0

内容50