一文详解具身智能：世界模型（World Models）系统性综述。- 大数跨境

AIGC Studio

2026-03-19

导读：经典文章回顾：一文梳理主流大模型推理部署框架：vLLM、SGLang、TensorRT-LLM、ollama

经典文章回顾：

写在前面

【从零走向AGI】旨在深入了解通用人工智能（AGI）的发展路径，从最基础的概念起，逐步构建完整的知识体系。

项目地址🔗：https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGC技术交流社区（涵盖AI绘画、AI视频、大模型、AI多模态、数字人、具身智能等AIGC干货资源及教程）欢迎大家加入：

本文旨在系统性地综述具身智能「世界模型」的研究进展，涵盖模型的功能性、时间建模策略以及空间表示方法三个核心维度。

聚焦于能够为具身智能提供可操作预测的世界模型，将其与静态场景描述符或不包含可控动态的纯生成式视觉模型区分开来。

具身智能需要智能体能够感知、行动，并预判动作如何重塑未来的世界状态。「世界模型」作为内部仿真器，捕捉环境动态，支持前向和反事实推演，以支撑感知、预测和决策。

本文提出一个三轴分类法，涵盖： (1)功能性，决策耦合型 vs. 通用型； (2)时间建模，序列仿真与推理 vs. 全局差异预测； (3)空间表示，全局潜在向量，token 特征序列，空间潜在网格，以及分解渲染表示。

同时，系统梳理机器人学、自动驾驶和通用视频场景下的数据资源与评估指标，涵盖像素预测质量、状态级理解以及任务性能。

论文标题：《A Comprehensive Survey on World Models for Embodied AI》

论文地址：https://arxiv.org/pdf/2510.16732

一、引言

认知科学表明，人类通过整合感官输入构建对世界的内部模型。这些模型不仅能够预测和模拟未来事件，还塑造感知并指导动作。

参考：《Being there: Putting brain, body, and world together again》、《Perceptions of perceptual symbols》和《The free-energy principle: a unified brain theory?》

受此观点启发，早期关于世界模型的人工智能研究根植于基于模型的强化学习（RL），其中使用潜在状态转移模型以提升样本效率和规划性能。

在一项开创性工作中《Recurrent world models facilitate policy evolution》明确提出“世界模型”这一术语，并激发了 Dreamer 系列的研究，凸显了学成动态如何驱动基于想象的策略最优化。

近年来，大规模生成式建模与多模态学习的进步使世界模型超越了最初专注于策略学习的范畴，发展为具备高保真未来预测能力的通用环境模拟器，例如 Sora 和 V-JEPA 2。

这一扩展带来了功能角色的多样化、时间建模策略的演进以及空间表示形式的丰富，同时也导致了不同子领域间在术语和分类体系上出现不一致现象。

图1 本综述结构。该图沿三个轴对世界模型进行分类，并说明了每个模型的代表性方法，提供了该领域的统一视图

为解决具身智能领域缺乏统一分类体系的问题，本文提出一个以功能、时间建模和空间表示三个核心维度为中心的框架。

在功能层面，该框架区分了决策耦合模型与通用模型；

在时间层面，区分了序列仿真与推理和全局差异预测；

在空间层面，涵盖从潜在特征到显式几何结构及神经场的多种表示方式。

该框架为现有方法提供了统一的组织结构，并整合了标准化数据集与评估指标，有助于实现定量比较，为未来研究提供全景式且可操作的知识地图。

二、核心概念及世界模型的数学表述

世界模型作为环境动态的内部模拟器发挥作用。其功能基于三个方面：

仿真 & 规划，利用学成的动力学模型生成可能的未来场景，使智能体能够在无需与现实世界交互的情况下，通过想象来评估潜在动作。
时间演化，学习编码状态的演化过程，从而实现时间上一致的滚动预测。
空间表示，通过使用潜在 token 或神经场等格式，在适当的保真度下编码场景几何结构，为控制提供上下文。

这三大支柱为接下来要介绍的分类法提供了概念基础，并在后续的数学框架中得到形式化。

将环境交互形式化为一个部分可观测马尔可夫决策过程（POMDP）。为了记号的一致性，在 t = 0 处定义了一个空的初始动作 a0 ，这使得动态过程可以统一表示。

在每一步 t ≥ 1 ，智能体接收一个观测 ot 并执行一个动作 at ，而真实状态 st 保持不可观测。

为了处理这种部分可观测性，世界模型利用一步过滤后验推断出一个学成的潜在状态 zt ，其中假设前一时刻的潜在状态 zt−1 能够总结相关的历史信息。最后，使用 zt 来重构 ot ：

因此，现代世界模型采用重构-正则化训练范式： 似然项促进观测的忠实预测，KL正则化项则使过滤后的后验与动态先验对齐。

三、世界模型分类

1、决策耦合，区分了决策耦合和通用型世界模型。决策耦合模型是任务特定的，学习动态以优化特定的决策任务。相比之下，通用型模型是任务无关的模拟器，专注于广泛的预测，从而实现对各种下游应用的泛化。

2、时间推理，区分了两种不同的预测范式。序列仿真与推断模型以自回归的方式模拟动态过程，逐步展开未来状态。相比之下，全局差异预测直接并行估计整个未来状态，虽然效率更高，但可能以降低时间一致性为代价。

3、空间表示，包括当前研究中用于建模空间状态的四种主要策略：

全局潜在向量：表示将复杂的世界状态编码为紧凑的向量，从而在物理设备上实现高效的实时计算。
Token 特征序列：表示将世界状态建模为 token 序列，重点在于捕捉 token 之间的复杂空间、时间及跨模态依赖关系。
空间潜在网格：表示通过利用几何先验（如鸟瞰图（BEV）特征或体素网格）将空间归纳偏置融入世界模型中。
分解渲染表示：将三维场景分解为一组可学习的基元，例如三维高斯点阵（3DGS）或神经辐射场（NeRF），然后利用可微分渲染实现高保真度的新视角合成。

四、数据资源 & 指标

具身智能中的世界模型需要应对涵盖操作、导航和自动驾驶等多样任务，要求异构资源和严格的评估。

4.1 数据资源

为了满足具身智能的多样化需求，将数据资源分为四类：仿真平台、交互式基准、离线数据集和真实机器人平台。

仿真平台：为世界模型的训练和评估提供了可控且可扩展的虚拟环境。

MuJoCo^[1] 是一个可定制的物理引擎，因其在机器人学和控制研究中对连杆系统及接触动力学的高效仿真而被广泛采用。
NVIDIA Isaac^[2] 是一个端到端、基于 GPU 加速的仿真栈，包含 Isaac Sim、Isaac Gym 以及 Isaac Lab。它提供了逼真的渲染效果和大规模强化学习能力。
CARLA^[3] 是一个基于 Unreal Engine 的开源模拟器，用于城市自动驾驶，提供逼真的渲染、多样化的传感器以及闭环评估协议。
Habitat^[4] 是一个高性能的具身智能模拟器，专注于逼真的三维室内导航。

交互式基准：提供标准化的任务套件和协议，用于对世界模型进行可重复的闭环评估。

DeepMind Control (DMC)^[5] ：一个基于 MuJoCo 的标准控制任务套件，为从状态或像素观测中学习的智能体提供了统一的比较基础。
Atari^[6] ：一套基于像素、离散动作的游戏合集，用于评估智能体性能。Atari100k 通过将交互限制在 100k 步内，专门评估样本效率。
Meta-World^[7] ：一个用于多任务和元强化学习的基准，包含 50 种多样化的机器人操作任务，使用 MuJoCo 中的 Sawyer 机械臂，并遵循标准化的评估协议
RLBench^[8] ：提供了 100 个模拟的桌面操作任务，具有稀疏奖励和丰富的多模态观测，旨在测试复杂技能和快速适应能力。
LIBERO^[9] ：一个用于持续学习机器人操作的基准，提供了 130 个程序生成的任务和人类示范，以评估样本高效性和持续学习能力。
nuPlan^[10] ：一个自动驾驶规划基准，采用轻量级闭环模拟器和超过 1500 小时的真实世界驾驶日志来评估长时程性能。

离线数据集：大规模预先收集的轨迹，消除了交互式滚动采样，为世界模型的可复现评估和数据高效预训练提供了基础。

数据集名称	类型/领域	数据规模与内容描述	特点与用途
RT-1	机器人操作	17 个月收集，13 台机器人，700+ 任务，130,000 条示范，语言+图像输入，11-DoF 动作	支持语言指令与视觉感知的多模态机器人学习
Open X-Embodiment (OXE)	跨形态机器人	21 机构，60 数据源，22 种形态，527 项技能，100 万+ 轨迹，统一格式	支持跨机器人平台训练，提升模型泛化能力
nuScenes	自动驾驶（感知）	1,000 场景（20s），波士顿+新加坡，6 摄像头+5 雷达+1 激光雷达+GPS/IMU，23 类 3D 标注，HDMap	多模态融合、3D 感知、长时程预测基准
Waymo	自动驾驶（感知）	1,150 场景（20s），10Hz，旧金山+凤凰城+山景城，5 激光雷达+5 摄像头，1,200 万 3D/2D 标注	大规模真实场景，3D 目标检测与轨迹预测
Occ3D	自动驾驶（占据预测）	Occ3D-nuScenes：40,000 帧，0.4m 分辨率；Occ3D-Waymo：200,000 帧，0.05m 分辨率	体素级占据标签，超越边界框的细粒度场景理解
OpenDV	自动驾驶（视频-文本）	2,059 小时，6,510 万帧，YouTube+7 公开数据集，40+ 国家，244 城市，带命令与上下文标注	支持语言与动作条件下的视频预测与规划
Something-Something v2	视频动作理解	220,847 视频片段，174 类，文本提示生成（如“将某物放入某物”），训练/验证/测试集划分明确	细粒度动作识别，强调时序推理与语言-动作对齐
VideoMix22M	自监督预训练	2,200 万样本，来源：YT-Temporal-1B、HowTo100M、Kinetics、SSv2、ImageNet（转视频）	用于视频自监督预训练，支持 V-JEPA 等模型训练
HM3D (Habitat-Matterport 3D)	室内仿真（具身智能）	1,000 室内场景，112,500 m² 可导航面积，面向 Habitat 平台，含元数据与资源包	支持大规模室内导航与具身 AI 研究，提升场景多样性与仿真真实性

现实世界中的机器人平台：为交互提供了物理实现，支持闭环评估、高保真度的数据采集以及在真实环境约束下的 S2R 验证。

Franka Emika^[11]：7-DoF 协作机械臂，全关节内置扭矩传感器；支持 1 kHz 力矩控制，专为精细力控与接触密集型任务设计；提供官方 ROS 包与 Franka Control Interface，即插即用，是力控操作与操作学习研究的标配桌面平台。
Unitree Go1^[12]：低成本小型四足机器人，12 关节电机驱动，最高速度 4.7 m/s；机载 1.5 TFLOPS 计算盒 + 全景深度相机，可高帧率感知；开放 ROS/C++/Python SDK，已成为运动控制、步态学习和具身导航领域的事实标准平台。
Unitree G1^[13]：轻量化人形机器人，全身 43-DoF，膝关节峰值扭矩 120 N·m；集成 3D LiDAR、深度摄像头、可换电池与机载计算；支持 ROS 与多语言 SDK，提供多模态感知与全身控制接口，为训练和评估具身世界模型提供可落地的实体测试环境。

4.2 指标

用于评估世界模型性能的指标，这些指标从像素预测质量、状态级理解到任务表现，涵盖了从低级信号保真度到高级目标达成的多个层面。

像素生成质量

Fréchet 初始化距离（FID）：比较真实图像和生成图像在预训练模型特征空间中的分布，值越低表示分布越接近。
Fréchet 视频距离（FVD）：扩展 FID 到视频，评估每帧质量及时间一致性，值越低表示外观和动态分布越接近。
结构相似性指数测量（SSIM）：比较生成图像与参考图像的亮度、对比度和结构，值越接近 1 表示相似性越高。
峰值信噪比（PSNR）：衡量重建图像与参考图像的像素级失真，值越高表示保真度越高。
学习感知图像块相似性（LPIPS）：通过比较预训练网络的特征，衡量生成图像与参考图像的感知相似性，值越低表示相似性越高。
VBench：综合评估视频生成的多个维度，包括视频质量和条件一致性，提供细粒度的性能评估。

状态级理解

平均交并比（mIoU）：评估语义分割的准确性，通过平均各类别的交并比来衡量，值越高表示场景理解越精确。
平均精度均值（mAP）：评估检测和实例分割的准确性，通过平均每个类别的平均精度来衡量，值越高表示识别和定位越准确。
位移误差：评估关键点、物体中心和轨迹航点的空间精度，包括平均位移误差（ADE）和最终位移误差（FDE），值越低表示定位越准确。
查准距（CD）：量化预测与真实情况之间的几何相似性，适用于表面、占用、鸟瞰视图和三维结构的评估，值越低表示相似性越高。

任务表现

成功率（SR）：衡量在具身环境中完成任务的比例，值越高表示性能越好。
样本效率（SE）：衡量达到目标性能所需的样本数量，值越低表示样本效率越高。
奖励：在强化学习中，衡量代理在时间步 t 的表现，通过累积奖励或平均回报来评估，值越高表示性能越好。
碰撞率：衡量在导航或自动驾驶中发生碰撞的比例，值越低表示安全性越高。

五、性能比较：像素生成、场景理解、控制任务

1️⃣ 像素生成 - nuScenes 视频

表4：nuScenes 视频生成排行榜

指标：FID↓、FVD↓
DrivePhysica：视觉保真度最佳，FID 最低。
MiLA：时间连贯性最强，FVD 最低。
总结：两者在视觉和时间维度上各有优势，共同定义了当前的最高水平。

2️⃣ 场景理解 - 4D Occupancy 预测

表5：Occ3D-nuScenes 4D Occupancy 预测（对应论文 Table 5）

指标：mIoU↑
COME（GTego）：平均 mIoU 34.23%，显著领先于其他方法。
总结：COME（GT ego）通过引入真实轨迹作为辅助信息，在长期预测中表现优异，凸显了辅助监督在提升性能方面的重要作用。

3️⃣ 控制任务 -DMC/RLBench

表6：DMC控制任务得分和表7：RLBench 操作成功率

DreamerV3：在 5M step 内，20 任务平均得分 823 分，展现出强大的性能。
VidMan：在 RLBench 18 任务中，平均成功率 67%，在视频扩散和 IDM 的结合上表现出色。
总结：不同模型在控制任务中各有优势，多模态输入和强骨干网络成为趋势。

六、挑战与趋势

从数据与评估、计算效率、建模策略三个维度，全面探讨了具身智能中世界模型面临的挑战和未来研究方向。

6.1 数据与评估

挑战：具身智能领域缺乏统一的大规模数据集，现有数据分散且特定于领域，限制了模型的泛化能力。评估指标多关注像素保真度，忽视了物理一致性和因果关系。

未来方向：需构建统一的多模态、跨域数据集，改进评估框架，全面评估物理一致性、因果推理和长时域动态。

6.2 计算效率

挑战：Transformer和扩散网络虽性能强大，但高推理成本与机器人实时控制需求冲突。传统方法虽高效，但在捕捉长期依赖性上有限。

未来方向：利用量化、剪枝和稀疏计算等技术优化模型架构，探索状态空间模型等新型时间方法，以提升实时效率和长期推理能力。

6.3 建模策略

挑战：世界模型在长时域时间动态和高效空间表示上存在困难，自回归设计与全局预测方法各有优缺点，时间和空间建模存在效率与表达力的权衡。

未来方向：结合自回归和全局预测方法，通过显式记忆或任务分解提高时间一致性。优化长距离推理和生成保真度，将时间和空间建模集成到统一架构中，平衡效率、保真度和交互性。

参考资料

[1]

MuJoCo: https://ieeexplore.ieee.org/document/6386109

[2]

NVIDIA Isaac: https://developer.nvidia.com/isaac

[3]

CARLA: https://arxiv.org/abs/1711.03938

[4]

Habitat: https://arxiv.org/abs/1904.01201

[5]

DeepMind Control (DMC): https://arxiv.org/pdf/1801.00690

[6]

Atari: https://arxiv.org/pdf/1207.4708

[7]

Meta-World: https://arxiv.org/abs/1910.10897

[8]

RLBench: https://arxiv.org/abs/1909.12271

[9]

LIBERO: https://arxiv.org/abs/2306.03310

[10]

nuPlan: https://arxiv.org/abs/2106.11810

[11]

Franka Emika: https://ieeexplore.ieee.org/document/9721535

[12]

Unitree Go1: https://www.unitree.com/cn/go1/

[13]

Unitree G1: https://www.unitree.com/cn/g1/

【声明】内容源于网络

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

内容 1064

粉丝 0

AIGC Studio 一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

总阅读11.4k

粉丝0

内容1.1k