VLA模型性能提升近300%,其训练数据中高达90%首次由世界模型生成。
这一突破来自国产世界模型企业极佳视界,相关模型代码与训练框架已全面开源。
长期以来,具身智能在开放场景落地的最大瓶颈并非算法,而是高质量真实机器人交互数据的严重匮乏。
真实数据采集成本高、周期长,且难以覆盖多样化场景,制约了VLA大模型的规模化训练与泛化能力。传统仿真虽能加速数据生成,但存在显著的Sim-to-Real差距,难以支撑实际部署。
世界模型被视为破解该难题的核心路径:通过学习物理规律,生成高保真、可控且多样化的具身交互数据,突破真实数据限制。
在此背景下,获华为哈勃投资的国产企业极佳视界发布并开源具身世界模型GigaWorld-0,将世界模型生成数据在VLA训练中的占比提升至90%。
基于此训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上性能提升近300%,标志着具身智能进入“数据高效、高泛化、低成本”的新阶段。
GigaWorld-0作为推动具身智能规模化与数据高效的关键基础设施,由两大协同模块构成:
GigaWorld-0-Video基于视频生成基座模型,生成视觉逼真、纹理丰富的具身操作数据; GigaWorld-0-3D融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保几何结构与物理动力学的准确性。
高效的世界模型架构
GigaWorld-0-Video针对计算效率低、细节控制弱等问题,重点强化稀疏注意力建模与动态专家计算能力,在保障视觉质量的同时显著降低计算开销,为VLA提供高质量、可扩展的合成数据。
稀疏注意力机制:高效建模长程时空依赖
GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为主干,避免传统全注意力带来的平方级计算复杂度。
该机制仅在局部时空邻域与关键语义区域间建立连接,显著降低内存占用与推理延迟,适用于高帧率、长序列视频生成。
MoE架构:提升生成多样性与可控性
GigaWorld-0-Video在DiT前馈网络中引入混合专家(Mixture-of-Experts, MoE)架构,参考DeepSeek V3设计。
每个视频Token动态路由至不同专家网络,实现细粒度语义控制,增强生成内容的多样性与精确性。
几何一致、物理准确的世界模型建模
GigaWorld-0-3D通过融合生成与重建技术,显著提升稀疏观测下的场景建模能力,并结合可微分物理引擎,实现机械臂操作过程的高保真物理仿真。
系统不仅生成几何一致、视觉逼真的静态背景,还能精准复现机械臂与物体交互的动力学行为,提供兼具几何一致性与物理准确性的训练数据。
生成式重建:几何一致性与视觉保真度的协同优化
GigaWorld-0-3D融合自研生成式重建技术,突破稀疏输入下的建模局限。
首先基于稀疏视图初始化高斯场景表示,再通过专用视图修复生成模型缓解视角缺失导致的几何畸变,最终以修复后的稠密图像驱动高精度3DGS重建,保障新视角合成的质量。
可微分物理引擎:高效精准的物理建模
GigaWorld-0-3D引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现机械臂动力学参数的自动辨识。
通过三步流程:随机参数生成仿真轨迹 → 训练可微替代模型逼近系统动力学 → 梯度下降优化参数匹配真实运动,高效生成物理合理、交互可信的数据。
高效世界模型训练框架
GigaWorld-0是业内首个实现FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。
结合FP8与稀疏注意力,GigaWorld-0在保持生成质量的同时大幅降低显存占用与训练成本,实现视觉保真与计算效率的最佳平衡。
该能力依托极佳视界自研的GigaTrain分布式训练框架,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进技术。
该框架既可支撑超大规模预训练,也能在8×H20等常规硬件上高效微调,现已全面开源(GitHub: https://github.com/open-gigaai/giga-train),并提供资源消耗基准与配置模板,助力开发者快速复现与定制。
可泛化具身数据引擎
在PBench(Robot Set)基准测试中,GigaWorld-0与Cosmos-Predict2-14B、Wan2.2-5B等先进模型对比,尽管仅激活20亿参数(2B),仍取得最高整体评分。
结果表明,GigaWorld-0在具身任务中兼具生成质量与推理效率,是当前极具性价比的世界模型方案。
GigaWorld-0的价值不仅在于高质量视频与3D场景生成,更体现在其作为可泛化具身数据引擎的实际有效性。
在真实机器人平台上的实验验证了其对下游VLA模型GigaBrain-0的显著提升作用,聚焦三大开放世界挑战:新纹理、新视角、新物体位置泛化。
结果显示,随着GigaWorld-0生成数据比例增加,GigaBrain-0在上述场景中的任务成功率与动作精度均呈稳定增长。
项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0
关于极佳视界
极佳视界成立于2023年,是国内首家专注“世界模型平台 × 具身基础模型”的物理AI企业,致力于通过双轮闭环实现物理世界通用智能。
公司在世界模型领域处于技术领先与产业落地前沿,技术已应用于自动驾驶、具身智能、内容创作等领域。
通过自研世界模型平台,极佳视界为具身大脑提供大规模高质量闭环数据,训练效率较纯真机提升1-2个数量级,真机表现达国内领先水平。
创始人兼CEO黄冠为清华大学自动化系AI博士,曾任地平线视觉感知负责人、鉴智机器人算法副总裁,拥有三星中国研究院、微软亚洲研究院等经历。
联合创始人、首席科学家朱政毕业于中科院自动化所,清华大学博士后,Google Scholar引用超1.7万次,h-index达50。
核心团队汇集清华、北大、中科大、CMU等顶尖院校研究人员,以及来自微软、百度、博世、NBC环球等企业的资深高管,具备强大的研发与产业化能力。
目前,极佳视界已在自动驾驶领域与多家头部主机厂合作,在具身智能方向与多个本体及终端企业达成合作,落地科研、教育、工业、服务、家庭等多场景。
2024年11月,公司完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,为两个月内第三轮融资。

