新智元报道
【新智元导读】极佳视界发布具身大模型 GigaBrain-0.5M*,采用世界模型预测未来状态驱动机器人决策,实现持续自我进化,在叠衣、冲咖啡、折纸盒等真实任务中接近 100% 成功率,任务成功率较主流基线提升近 30%,超越 π**0.6 实现 SOTA。模型基于超万小时数据训练,其中六成由自研世界模型高保真合成。
具身世界模型新一代原生范式重磅登场!继 GigaBrain-0.1 斩获 RoboChallenge 全球第一后,性能更强的 GigaBrain-0.5M* 正式发布。
GigaBrain-0.5M* 是一款依托世界模型实现自我进化的视觉-语言-动作(VLA)大模型,在家庭叠衣、服务场景冲煮咖啡、工业折纸盒等真实任务中均实现零失误、可持续稳定运行。
该模型以世界模型对未来状态与价值的预测作为条件输入,显著提升长时程任务中的策略鲁棒性。同时创新引入“人在回路”持续学习机制,通过人工筛选与校正模型推演轨迹进行迭代训练,形成“行动—反思—进化”的闭环,实现自主迭代升级。
论文链接:https://arxiv.org/pdf/2602.12099
项目链接:https://gigabrain05m.github.io/
基于世界模型的强化学习训练范式
极佳视界提出“基于世界模型的强化学习”新范式,并采用四阶段闭环训练流程:
- 基于大规模机器人操作数据预训练世界模型,精准预测未来状态与价值;
- 以世界模型输出为条件,微调策略网络以指导动作决策;
- 将条件化策略部署至真实环境,结合人在环机制采集自主推演轨迹;
- 利用筛选后的有效轨迹数据联合优化世界模型与策略,实现持续学习与自主进化。
连续零失误执行
在与 AWR、RECAP 等主流模仿学习与强化学习方法对比中,GigaBrain-0.5M* 表现突出。相比基于 π**0.6 的 RECAP 基线,任务成功率提升近 30%。
在折纸盒、咖啡制备、衣物折叠等复杂长时程任务中,模型均实现接近 100% 成功率,并可稳定复现成功轨迹,展现出卓越的策略鲁棒性。
高效且准确的价值预测
实验表明,基于世界模型的价值预测在效率与精度上优于 π**0.6 提出的 VLM 方案。其优势源于对未来的显式建模及单步降噪机制,为价值函数提供关键时序上下文支持,实现更高效、精准、稳定的估计。
以叠衣任务为例,价值曲线与物理进程高度对齐:调整姿态时合理波动,进入稳定叠放阶段稳步上升,受干扰时骤降,干扰消除后迅速恢复——体现世界模型提供的“认知先行”能力。
上万小时的训练数据
GigaBrain-0.5M* 的基座模型基于总计 10931 小时的多样化机器人操作数据训练,其中 61%(6653 小时)由自研世界模型 GigaWorld 高保真合成,涵盖纹理迁移、视角变换、人手到机械臂映射等场景;39%(4278 小时)来自真实机器人采集,保障物理世界的可执行性。
海量数据显著提升模型泛化能力与鲁棒性,而合成数据有效突破真实采集的长尾瓶颈。通过可控生成新纹理、新位姿与新视角样本,增强模型在分布外场景的适应性,为具身智能走向开放世界奠定数据基础。
关于极佳视界
极佳视界是一家专注于具身智能与通用机器人的科技公司,围绕“基模—本体—场景”三位一体,为工业、商业、家庭等场景提供软硬一体的机器人解决方案,推动通用机器人服务千行百业、走进千家万户。
核心团队汇聚清华、北大、中科院、中科大、WashU、CMU 等顶尖院校研究人员,以及来自微软、三星、地平线、百度、博世等企业的资深专家,在物理 AI 领域兼具领先研发能力与大规模产业落地经验。
作为国内首家布局世界模型的科技公司,极佳视界构建以 GigaWorld(世界模型平台)、GigaBrain(通用具身大脑)、Maker(原生本体)为核心的闭环生态,致力于实现数据、训练、测试全链路效率 10-100 倍提升,推动通用具身智能与自动驾驶等物理 AGI 大规模发展。

