大数跨境
0
0

具身智能新范式:GEN-0 用 27 万小时真实数据 + 10B+ 模型,重新定义 Scaling Law

具身智能新范式:GEN-0 用 27 万小时真实数据 + 10B+ 模型,重新定义 Scaling Law 北京无限迭代科技有限公司
2025-11-27
1
导读:几天前,AI 机器人创业公司 Generalist 宣布了一个值得所有机器人团队关注的进展——他们推出了一类全新的具身基础模型 GEN-0。

几天前,AI 机器人创业公司 Generalist 宣布了一个值得所有机器人团队关注的进展——

他们推出了一类全新的具身基础模型 GEN-0

这是一个典型的“底座级”项目:

  • 目标:为通用机器人智能提供统一的基础能力

  • 架构:基于全新的 “和谐推理(Harmonic Reasoning)”

  • 数据:依托 27 万小时真实世界操作数据

  • 规律:在具身智能领域,首次系统性验证强 Scaling Law

可以说,GEN-0 不是一个“单点能力”的模型,而是一整套围绕“机器人如何在真实物理世界中思考与行动”的系统性技术突破。



一、GEN-0:面向通用机器人的“底层操作系统”

Generalist 的定位非常直接:以实现通用机器人为使命。

GEN-0 正是这个愿景的技术基座,它要解决的是:如何让机器人在复杂、多变、连续的物理世界中,真正做到“看得懂、想得清、做得对”。

模型有几大核心特征:

  • 具身基础模型:不是只做视觉、只做控制,而是统一建模“感知—推理—动作”。

  • 统一架构:针对各类机器人平台、场景和任务,提供通用、可扩展的底层智能能力。

  • 面向真实世界:直接在大规模真实操作数据上预训练,而非依赖虚拟环境或小规模标注集。

这为后续在家庭、工厂、仓库、物流等场景上的机器人应用,提供了一个统一可复用的“智能底座”。



二、“和谐推理”:不再是“先想清楚再动手”

传统具身智能方案,往往采用类似“大脑 + 控制器”的串行模式:先规划,再执行;先推理,再控制。

GEN-0 引入的 “和谐推理(Harmonic Reasoning)”,则是一个更接近真实世界决策节奏的范式:

  • 在 异步、连续时间 的感知与动作流中进行建模

  • 将 感知、决策、行动 建立起紧密协同关系

  • 让模型可以在真实环境中做一件事:

  • 边看、边想、边做

这一点的意义在于:

  • 不再依赖额外的“推理时引导”或复杂的双系统架构

  • 更适合处理连贯、多步骤、实时反馈的物理任务

  • 更贴近人类在现实世界中的行动方式,而不是“静态规划”的理想化流程

对于追求“长时序、多步骤操作”的机器人来说,这是一种新型的推理—控制一体化尝试。



三、模型规模与“智能相变”:7B 是一道分水岭

GEN-0 的另一个重要贡献,是在具身智能领域清晰地观察到模型规模带来的“智能相变”现象

在系统性的实验中,Generalist 给出了一组清晰的结论:

  • 小模型(1B 级)

    • 在预训练阶段难以有效吸收复杂、多样的感知—运动数据

    • “下一动作预测误差”长期维持在较高水平

    • 很容易出现能力过早固化(saturation),难以通过继续增加数据获得实质收益

  • 中等规模模型(约 7B)

    • 出现明显的“智能相变”拐点

    • 对更多预训练数据的吸收能力明显增强

    • 性能能够随数据与算力的投入,持续稳步提升

  • 更大规模模型(10B+)

    • 在更少的后训练(fine-tuning)成本下,更快适应新任务

    • 在下游任务上的表现呈现出稳定、可预测的提升趋势

换句话说:在具身智能领域,模型要真正“学会物理世界里的常识和技能”,至少要跨过一个算力与规模的“激活阈值”。

Generalist 指出,这也是在机器人领域首次系统性观察并量化这种“模型固化现象”:

小模型在海量感知—运动数据面前,会先“卡住”,而不是自然进化。

这与经典的 莫拉维克悖论 形成呼应:

——人类轻松完成的感知与灵巧任务,对机器而言往往需要更高的算力门槛。



四、强 Scaling Law:具身智能也进入“可预测时代”

过去两年,Scaling Law 主要被讨论在语言与多模态大模型领域。

GEN-0 的一大亮点,是把这一规律明确地带入了具身智能

在 GEN-0 的实验中,团队观察到:

  • 随着 预训练数据规模 的持续扩大

  • 配合 算力投入 的同步上升

  • 模型在多类下游机器人任务上的表现:

  • 呈现出稳定、可预测的持续提升

这意味着:

  • 具身智能不再只是“经验驱动”的黑盒工程

  • 而是开始具备类似 NLP 领域那样的:可规划、可预期的工程规律

对于行业来说,这一点非常关键:

  • 团队可以更科学地规划:数据采集规模、模型规模与算力预算

  • 可以在立项之初就大致预测:达到某种性能水平需要多大的投入

  • 有利于将具身智能从“艺术”变成“工程”,从试验变成产业化



五、27 万小时真实操作数据:从家庭到仓库的“操作全景”

如果说架构是“骨骼”,那对具身智能来说,真实世界操作数据就是“血液”

GEN-0 的预训练,基于 Generalist 内部构建的一套大规模机器人数据体系:

  • 累积 27 万小时 真实世界操作轨迹

  • 覆盖 全球数千个家庭、仓库、工厂与各类工作场所

  • 操作形式包括:日常家务、物品搬运、装配作业、分拣流程等多种场景

这套数据的几个特征非常重要:

  1. 真实世界,而非纯仿真

    • 各种光照、遮挡、杂乱环境、非理想姿态

    • 真实的人类操作习惯与误差

    • 更接近未来机器人实际部署时要面对的场景

  1. 操作多样,而非单一任务

    • 从“拿起杯子、放到桌子上”

    • 到“在仓库中从货架取出物品并完成分拣”

    • 支撑模型学习的是一整个**“操作全景(operational panorama)”**

  1. 持续扩充的时间维度

    • 数据集以 每周约 1 万小时 的速度持续增长

    • 让 GEN-0 可以不断吸收最新的场景与操作模式

为更好地利用这套数据,Generalist 还构建了内部的 操作搜索工具,用于:

  • 按动作、场景、物体类型等维度检索操作片段

  • 进行有针对性的模型训练与评估

  • 探索“跨场景、跨任务”的泛化能力边界



六、6.85 年/天:为 GEN-0 搭建的算力与数据基础设施

要支撑这样规模的数据与模型,仅有“好点子”是不够的,还需要扎实的工程基础设施。

为此,Generalist 在运营与机器学习基础设施层面,做了几件事:

  • 构建高性能数据加载与分发系统

    • 针对大规模、多源头的操作轨迹数据

    • 设计高吞吐、可扩展的数据加载器

    • 保证训练过程中的数据流稳定、高效

  • 搭建专用网络与上传体系

    • 新铺设专用互联网线路

    • 为分布在全球的各个数据采集站点

    • 提供稳定、高速的上行带宽

  • 与多家云服务商深度合作

    • 部署定制化上传与计算节点

    • 将整体算力扩展到 O(10K) 级计算核心

在这一整套基础设施的支撑下:

系统能够在 每一天的训练中,消化相当于 6.85 年的真实世界操作经验,源源不断地灌注到 GEN-0 中。

这不仅是一套模型方案,更是一整条 “数据—算力—模型—机器人” 闭环流水线 的工程实践。



七、从技术到产业:具身智能进入“Scaling Law 时刻”

综合来看,GEN-0 带来的不只是一个新模型名字,而是一组关键信号:

  • 具身智能开始进入可预测的 Scaling Law 阶段

    • 数据、算力、模型规模与性能之间,出现明确可拟合的关系

  • 模型固化与激活阈值被首次系统性揭示

    • 小模型在真实物理世界任务上的局限性被量化

    • 中大规模模型在具身智能方向的价值被进一步夯实

  • 真实世界长时序数据走向“工程化采集和利用”

    • 27 万小时只是起点

    • 每周 1 万小时的持续新增,让模型能不断演化

对于整个行业,这释放出几个非常实际的信号:

  • 做具身智能,不能只盯着仿真与小数据集,必须走向真实世界大规模数据与长时序操作。

  • 模型要真正在物理世界中“聪明起来”,需要跨过一个规模与算力的门槛,而不是停留在几亿参数的试验模型阶段。

  • 数据、算力与模型已经可以被放到同一张“规划表”里,具身智能的研发进入了更加工程化、可度量的时代。



写在最后

GEN-0 及其背后的 27 万小时真实操作数据与 10B+ 基模实践,像是在具身智能领域丢下一块“基石”:

  • 它让我们看到 具身智能也有自己的 Scaling Law

  • 它提醒行业:真正难的是在物理世界中学会行动,而不仅是“看懂图片、理解文本”

  • 它把“机器人基础模型”这件事,从愿景,拉回到了可以被实验、被度量、被工程化实现的层面。

接下来,随着更多团队加入真实数据采集、具身基础模型和端到端训练的探索,我们或许会在不远的将来,看到这样一幕成为日常:

机器人不再只是“按程序行动的机器”,
而是能在真实世界中,
持续学习、持续适应、持续进化的智能体。




更多精彩内容




点击关注 get更多“无限迭代”最新资讯

 
 

【声明】内容源于网络
0
0
北京无限迭代科技有限公司
专注AI大模型训练语料与数据合成
内容 11
粉丝 0
北京无限迭代科技有限公司 专注AI大模型训练语料与数据合成
总阅读1
粉丝0
内容11