大数跨境
0
0

【AI】世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源

【AI】世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源 人工智能产业链union
2025-12-02
1
导读:具身智能迈入“数据高效、高泛化、低成本”新阶段

VLA模型性能提升近300%,其训练数据中高达90%首次由世界模型生成

这一突破来自国产世界模型企业极佳视界,相关模型代码与训练框架已全面开源。

长期以来,具身智能在开放场景落地的最大瓶颈并非算法,而是高质量真实机器人交互数据的严重匮乏。

真实数据采集成本高、周期长,且难以覆盖多样化场景,制约了VLA大模型的规模化训练与泛化能力。传统仿真虽能加速数据生成,但存在显著的Sim-to-Real差距,难以支撑实际部署。

世界模型被视为破解该难题的核心路径:通过学习物理规律,生成高保真、可控且多样化的具身交互数据,突破真实数据限制。

在此背景下,获华为哈勃投资的国产企业极佳视界发布并开源具身世界模型GigaWorld-0,将世界模型生成数据在VLA训练中的占比提升至90%

基于此训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上性能提升近300%标志着具身智能进入“数据高效、高泛化、低成本”的新阶段

GigaWorld-0作为推动具身智能规模化与数据高效的关键基础设施,由两大协同模块构成:

  • GigaWorld-0-Video基于视频生成基座模型,生成视觉逼真、纹理丰富的具身操作数据;
  • GigaWorld-0-3D融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保几何结构与物理动力学的准确性。

高效的世界模型架构

GigaWorld-0-Video针对计算效率低、细节控制弱等问题,重点强化稀疏注意力建模动态专家计算能力,在保障视觉质量的同时显著降低计算开销,为VLA提供高质量、可扩展的合成数据

稀疏注意力机制:高效建模长程时空依赖

GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为主干,避免传统全注意力带来的平方级计算复杂度。

该机制仅在局部时空邻域与关键语义区域间建立连接,显著降低内存占用与推理延迟,适用于高帧率、长序列视频生成。

MoE架构:提升生成多样性与可控性

GigaWorld-0-Video在DiT前馈网络中引入混合专家(Mixture-of-Experts, MoE)架构,参考DeepSeek V3设计。

每个视频Token动态路由至不同专家网络,实现细粒度语义控制,增强生成内容的多样性与精确性。

几何一致、物理准确的世界模型建模

GigaWorld-0-3D通过融合生成与重建技术,显著提升稀疏观测下的场景建模能力,并结合可微分物理引擎,实现机械臂操作过程的高保真物理仿真

系统不仅生成几何一致、视觉逼真的静态背景,还能精准复现机械臂与物体交互的动力学行为,提供兼具几何一致性与物理准确性的训练数据。

生成式重建:几何一致性与视觉保真度的协同优化

GigaWorld-0-3D融合自研生成式重建技术,突破稀疏输入下的建模局限。

首先基于稀疏视图初始化高斯场景表示,再通过专用视图修复生成模型缓解视角缺失导致的几何畸变,最终以修复后的稠密图像驱动高精度3DGS重建,保障新视角合成的质量。

可微分物理引擎:高效精准的物理建模

GigaWorld-0-3D引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现机械臂动力学参数的自动辨识。

通过三步流程:随机参数生成仿真轨迹 → 训练可微替代模型逼近系统动力学 → 梯度下降优化参数匹配真实运动,高效生成物理合理、交互可信的数据。

高效世界模型训练框架

GigaWorld-0是业内首个实现FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。

结合FP8与稀疏注意力,GigaWorld-0在保持生成质量的同时大幅降低显存占用与训练成本,实现视觉保真与计算效率的最佳平衡。

该能力依托极佳视界自研的GigaTrain分布式训练框架,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进技术。

该框架既可支撑超大规模预训练,也能在8×H20等常规硬件上高效微调,现已全面开源(GitHub: https://github.com/open-gigaai/giga-train),并提供资源消耗基准与配置模板,助力开发者快速复现与定制。

可泛化具身数据引擎

在PBench(Robot Set)基准测试中,GigaWorld-0与Cosmos-Predict2-14B、Wan2.2-5B等先进模型对比,尽管仅激活20亿参数(2B),仍取得最高整体评分。

结果表明,GigaWorld-0在具身任务中兼具生成质量与推理效率,是当前极具性价比的世界模型方案。

GigaWorld-0的价值不仅在于高质量视频与3D场景生成,更体现在其作为可泛化具身数据引擎的实际有效性。

在真实机器人平台上的实验验证了其对下游VLA模型GigaBrain-0的显著提升作用,聚焦三大开放世界挑战:新纹理、新视角、新物体位置泛化。

结果显示,随着GigaWorld-0生成数据比例增加,GigaBrain-0在上述场景中的任务成功率与动作精度均呈稳定增长。

项目链接:
https://giga-world-0.github.io/
论文链接:
https://arxiv.org/pdf/2511.19861
代码链接:
https://github.com/open-gigaai/giga-world-0

关于极佳视界

极佳视界成立于2023年,是国内首家专注“世界模型平台 × 具身基础模型”的物理AI企业,致力于通过双轮闭环实现物理世界通用智能。

公司在世界模型领域处于技术领先与产业落地前沿,技术已应用于自动驾驶、具身智能、内容创作等领域。

通过自研世界模型平台,极佳视界为具身大脑提供大规模高质量闭环数据,训练效率较纯真机提升1-2个数量级,真机表现达国内领先水平。

创始人兼CEO黄冠为清华大学自动化系AI博士,曾任地平线视觉感知负责人、鉴智机器人算法副总裁,拥有三星中国研究院、微软亚洲研究院等经历。

联合创始人、首席科学家朱政毕业于中科院自动化所,清华大学博士后,Google Scholar引用超1.7万次,h-index达50。

核心团队汇集清华、北大、中科大、CMU等顶尖院校研究人员,以及来自微软、百度、博世、NBC环球等企业的资深高管,具备强大的研发与产业化能力。

目前,极佳视界已在自动驾驶领域与多家头部主机厂合作,在具身智能方向与多个本体及终端企业达成合作,落地科研、教育、工业、服务、家庭等多场景。

2024年11月,公司完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,为两个月内第三轮融资。

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 342
粉丝 0
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读7.9k
粉丝0
内容342