

李飞飞 World Labs 热潮之后，一文看懂“空间智能”硬核全栈

极市平台

2025-09-25

↑ 点击蓝字关注极市平台

作者丨PaperAgent

来源丨PaperAgent

编辑丨极市平台

极市导读

李飞飞World Labs牵头发布90页3D/4D世界模型综述，首次把VideoGen、OccGen、LiDARGen按“原生3D/4D表示”统一梳理，给出五类评测指标和开源工具，让闭环仿真、感知-决策-生成一体化真正“有图可循”。>>加入极市CV技术交流群，走在计算机视觉的最前沿

视频生成卷到 2D 天花板”的热度刚降温，李飞飞 World Labs 又带着 Marble 平台把舆论拉进 3D 世界。一周过去，当时刷屏的 Demo 已经沉淀为 arXiv 上 90 页、300 篇文献的综述——《3D and 4D World Modeling: A Survey》。

我们把时间线拉回来看：Marble 的“空间智能”究竟只是炫酷 GIF，还是自动驾驶、机器人、XR 与数字孪生的下一座基建？

今天分享一篇最新3D、4D世界模型技术最新全面系统性综述

本综述首次系统梳理 3D/4D 原生表示（RGB-D、Occupancy Grid、LiDAR Point Cloud）的世界模型，给出明确定义、分层分类法、数据集与评测指标，并开源持续维护。

01 分层分类法

3D/4D World Model = 在原生三维或四维表示上，生成（Generative）或预测（Predictive）几何合理、语义可控、时空一致的场景，以支持感知-决策-仿真全链路任务。

Data Engine：MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束，生成多视角长视频，解决长尾数据稀缺。
Action Interpreter：GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧，实现动作-结果可微分仿真。
Neural Simulator：DriveArena、DreamForge 在闭环里交替“生成-决策”，替代传统游戏引擎渲染管线。

关键挑战：长时序一致性（InfinityDrive）、多视角几何对齐（DiST-4D）、稀疏标注下的可控性（MaskGWM）。

Scene Representor：SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素，提升感知鲁棒性。
Occupancy Forecaster：OccWorld、OccSora、T3Former 以 ego-action 为条件，预测未来 3s 的 4D occupancy，误差 < 30 cm。
Autoregressive Simulator：DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙，实现可编辑的大型开放世界。

关键挑战：细粒度动态物体（自行车、行人）补全、长时序误差累积、与下游规划器端到端联合训练。

Data Engine：R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云，解决恶劣天气、稀有场景数据不足。
Action Forecaster：Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云，实现点云级别的动作推演。
Autoregressive Simulator：LiDARCrafter、LidarDM 支持4D 点云序列闭环生成，可直接喂给下游检测/规划网络做训练。

关键挑战：保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

Generation Quality：FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference
Forecasting Quality：IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency
Planning-Centric：Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS
Reconstruction Quality：PSNR/SSIM/LPIPS、Novel-View IoU
Downstream：3D Det mAP、BEV 分割 mIoU、VQA Top-1

https://arxiv.org/pdf/2509.07996
3D and 4D World Modeling: A Survey
https://github.com/worldbench/survey

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读3.2k

粉丝0

内容8.2k