大数跨境
0
0

李飞飞 World Labs 热潮之后,一文看懂“空间智能”硬核全栈

李飞飞 World Labs 热潮之后,一文看懂“空间智能”硬核全栈 极市平台
2025-09-25
0
↑ 点击蓝字 关注极市平台
作者丨PaperAgent
来源丨PaperAgent
编辑丨极市平台

极市导读

 

李飞飞World Labs牵头发布90页3D/4D世界模型综述,首次把VideoGen、OccGen、LiDARGen按“原生3D/4D表示”统一梳理,给出五类评测指标和开源工具,让闭环仿真、感知-决策-生成一体化真正“有图可循”。>>加入极市CV技术交流群,走在计算机视觉的最前沿

视频生成卷到 2D 天花板”的热度刚降温,李飞飞 World Labs 又带着 Marble 平台把舆论拉进 3D 世界。一周过去,当时刷屏的 Demo 已经沉淀为 arXiv 上 90 页、300 篇文献的综述——《3D and 4D World Modeling: A Survey》。

我们把时间线拉回来看:Marble 的“空间智能”究竟只是炫酷 GIF,还是自动驾驶、机器人、XR 与数字孪生的下一座基建?

今天分享一篇最新3D、4D世界模型技术最新全面系统性综述

  • 2D 视频生成卷到头了,但真实物理世界天生是 3D+时间维度的
  • 自动驾驶、机器人、XR、数字孪生都需要几何一致、可交互、长时序的时空场景。
  • 缺乏统一术语 & 碎片化严重:同样叫“world model”,有人指视频生成,有人指预测器,有人指闭环仿真器。
综述整体框架
  • 本综述首次系统梳理 3D/4D 原生表示(RGB-D、Occupancy Grid、LiDAR Point Cloud)的世界模型,给出明确定义、分层分类法、数据集与评测指标,并开源持续维护。

01 分层分类法

3D/4D World Model = 在原生三维或四维表示上,生成(Generative)或预测(Predictive)几何合理、语义可控、时空一致的场景,以支持感知-决策-仿真全链路任务。

三模态 × 四功能全景图(来源:论文 Figure 2)

02 各模态深度拆解

2.1 VideoGen——把视频生成做成“时空编剧”

典型方法时间线(2021-2025)VideoGen 代表方法逐年汇总(来源:论文 Figure 3)
  • Data Engine:MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束,生成多视角长视频,解决长尾数据稀缺。
  • Action Interpreter:GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧,实现动作-结果可微分仿真。
  • Neural Simulator:DriveArena、DreamForge 在闭环里交替“生成-决策”,替代传统游戏引擎渲染管线。
VideoGen模型分类

关键挑战:长时序一致性(InfinityDrive)、多视角几何对齐(DiST-4D)、稀疏标注下的可控性(MaskGWM)。

2.2 OccGen——把世界变成“可交互的乐高”

OccGen 三功能分类(来源:论文 Figure 5)
  • Scene Representor:SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素,提升感知鲁棒性。
  • Occupancy Forecaster:OccWorld、OccSora、T3Former 以 ego-action 为条件,预测未来 3s 的 4D occupancy,误差 < 30 cm。
  • Autoregressive Simulator:DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙,实现可编辑的大型开放世界
OccGen

关键挑战:细粒度动态物体(自行车、行人)补全、长时序误差累积、与下游规划器端到端联合训练。

2.3 LiDARGen——直接“点云编剧”

LiDARGen 三功能分类(来源:论文 Figure 6)
  • Data Engine:R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云,解决恶劣天气、稀有场景数据不足。
  • Action Forecaster:Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云,实现点云级别的动作推演
  • Autoregressive Simulator:LiDARCrafter、LidarDM 支持4D 点云序列闭环生成,可直接喂给下游检测/规划网络做训练。

关键挑战:保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

03 统一评测体系——不再“各玩各的”

五类评测指标总表(来源:论文 Table 14)
五类评测指标总表(来源:论文 Table 14)
  1. Generation Quality:FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference
  2. Forecasting Quality:IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency
  3. Planning-Centric:Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS
  4. Reconstruction Quality:PSNR/SSIM/LPIPS、Novel-View IoU
  5. Downstream:3D Det mAP、BEV 分割 mIoU、VQA Top-1
https://arxiv.org/pdf/2509.07996
3D and 4D World Modeling: A Survey
https://github.com/worldbench/survey


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k