允中 发自 凹非寺
量子位 | 公众号 QbitAI
VLA模型性能提升近300%,其背后训练数据首次实现90%由世界模型生成。
这一突破来自国产世界模型企业极佳视界,相关模型代码与训练框架已全部开源。
具身智能在迈向开放世界落地过程中,长期受限于高质量真实机器人交互数据的极度稀缺。真机采集成本高、周期长,难以覆盖多样化场景;传统仿真则存在显著的Sim-to-Real gap。世界模型被视为破解该瓶颈的关键路径,通过学习现实规律生成高保真、可控且多样化的具身交互数据。
在此背景下,获得华为哈勃投资的极佳视界发布并开源其具身世界模型GigaWorld-0,成功将世界模型生成数据在VLA训练中的占比提升至90%。
基于该数据训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上均实现近300%的性能提升,标志着具身智能进入“数据高效、高泛化、低成本”的新阶段。
GigaWorld-0作为支撑具身智能规模化发展的关键基础设施,由两大协同组件构成:
GigaWorld-0-Video:基于视频生成基座模型,生成视觉逼真、纹理丰富的具身操作序列数据; GigaWorld-0-3D:融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。
高效的世界模型架构
GigaWorld-0-Video针对计算效率低与细节控制不足等问题,重点强化了稀疏注意力建模与动态专家(MoE)计算能力,在保障视觉保真度的同时显著降低计算开销,为VLA提供高质量、可扩展的合成训练数据。
稀疏注意力机制:高效建模长程时空依赖
GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为主干网络,避免传统全注意力带来的平方级计算复杂度。
该机制仅在局部时空邻域和关键语义区域间建立连接,有效降低内存占用与推理延迟,支持高帧率、长序列视频生成。
MoE架构:提升生成多样性与可控性
在DiT的前馈网络中集成混合专家(Mixture-of-Experts, MoE)架构,每个视频Token动态路由至多个专家网络,实现对不同语义区域的细粒度处理,增强内容控制能力。
几何一致、物理准确的世界模型建模
GigaWorld-0-3D融合生成与重建技术,提升稀疏观测下的场景建模能力,并结合可微分物理引擎,实现对机械臂操作过程的高保真物理仿真。
系统不仅生成几何一致、视觉逼真的静态背景资产,还精准复现物体交互中的动力学行为,提供兼具几何一致性与物理准确性的训练数据。
生成式重建:几何一致性与视觉保真度的协同优化
系统基于稀疏输入视图初始化高斯场景表示,引入专用视图修复生成模型缓解因视角缺失导致的几何扭曲问题。
修复后的稠密图像作为增强输入,驱动第二阶段的高精度3DGS重建,在新视角合成中同步保障几何一致性与视觉保真度。
可微分物理引擎:高效精准的物理建模
GigaWorld-0-3D采用基于物理信息神经网络(PINNs)的可微分物理引擎,自动辨识机械臂动力学参数。
通过三步流程——随机参数生成仿真轨迹、训练可微替代模型逼近真实动力学、梯度下降优化匹配真实运动——高效生成物理合理、交互可信的数据。
高效世界模型训练框架
GigaWorld-0是业内首个实现FP8精度端到端训练的世界模型,标志着世界模型训练进入高能效新阶段。
通过将FP8与稀疏注意力深度融合,模型在保持生成质量的前提下大幅降低显存占用与训练成本,实现视觉保真与计算效率的最佳平衡。
该能力依托极佳视界自研的GigaTrain分布式训练框架,支持DeepSpeed ZeRO、FSDP、FP8混合精度、梯度检查点等先进技术,既适用于超大规模预训练,也可在8×H20等常规硬件上完成高效微调。
GigaTrain现已全面开源(GitHub: https://github.com/open-gigaai/giga-train),并公开资源消耗基准与配置模板,助力开发者快速复现、迁移和定制GigaWorld-0,推动具身智能数据生成的普惠化与标准化。
可泛化具身数据引擎
在PBench(Robot Set)基准测试中,GigaWorld-0与Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B、Wan2.2-14B等先进世界模型进行全面对比。
尽管GigaWorld-0激活参数仅20亿(2B),为所有模型中最小,却取得最高综合评分,证明其在生成质量与推理效率方面的领先优势,是当前极具性价比的世界模型方案。
GigaWorld-0的价值不仅体现在生成能力上,更在于其作为可泛化具身数据引擎在真实任务中的有效性。
在VLA模型GigaBrain-0上的实验表明:随着GigaWorld-0生成数据比例增加,模型在新纹理、新视角、新物体位置三类开放世界泛化任务中的成功率与动作精度持续稳定提升。
项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0
关于极佳视界
极佳视界成立于2023年,是国内首家专注于“世界模型平台 × 具身基础模型”的物理AI公司,致力于构建双轮闭环的物理世界通用智能体系。
公司在世界模型方向处于技术创新与产业落地前列,技术已应用于自动驾驶、具身智能、内容创作等领域。
在具身大脑方向,依托全球领先的“世界模型平台”,相比纯真机训练效率提升1-2个数量级,真实场景效果达国内领先水平。
创始人兼CEO黄冠为清华大学自动化系AI博士,曾任地平线视觉感知负责人、鉴智机器人算法副总裁,拥有三星中国研究院、微软亚洲研究院等工作经历。
联合创始人、首席科学家朱政同样毕业于清华自动化系,2019年获中科院自动化所博士学位,后于清华大学从事博士后研究,Google Scholar引用超1.7万,h-index达50。
核心团队汇集来自清华、北大、中科院、中科大、WashU、CMU等高校的顶尖研究人员,以及微软、三星、百度、博世、NBC环球影业等企业的资深技术与管理人才,兼具前沿研发能力与大规模产业落地经验。
目前,极佳视界是少有的在“世界模型”与“具身大脑”双赛道具备世界级实力的团队。已在自动驾驶领域与多家头部主机厂达成合作,在具身智能方向服务于多个本体与终端企业,应用场景涵盖科研、教育、展览、工业、服务及家庭等。
2025年11月,公司完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,为其两个月内连续完成的第三轮融资。

