理解动态物理世界(其特征在于不断演变的3D结构、真实世界运动以及带文本描述的语义内容)对于人机交互至关重要。它能使具身智能体以类人能力感知真实环境并在其中行动。
然而,现有数据集通常来源于有限的模拟器,或采用传统的运动恢复结构技术进行大规模标注,且缺乏丰富的描述性字幕,这限制了基础模型从互联网常见的单目视频中准确解读真实世界动态的能力。
为此,厦门大学联合香港中文大学、北京大学、Meta等提出一种新颖的自动化数据整理流水线DynamicGen,旨在大规模生成物理感知多模态4D数据。DynamicGen包含两个主要阶段:(1)从原始视频中恢复度量尺度的几何结构和运动物体(即物体类别和掩码);(2)生成三个粒度层级的动态内容(即物体、相机和场景)详细字幕。
利用DynamicGen,该团队构建了面向真实世界视频的物理尺度、多模态4D世界建模框架DynamicVerse,相关论文成果收录于Neurips 2025顶会。
DynamicVerse提供了一个大规模数据集,包含10万余个视频、80余万个标注掩码以及1000余万个来自互联网视频的帧。在视频深度估计、相机姿态估计和相机内参估计这三个基准任务上的实验评估表明,DynamicVerse的4D建模在捕捉物理尺度测量值方面表现卓越,相比现有方法具有更高的全局准确性。
论文标题:
《DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling》
论文链接:
https://arxiv.org/abs/2512.03000
项目主页:
https://dynamic-verse.github.io/
收录情况:Neurips 2025
01
主要贡献
本文的主要贡献有以下三点:
1)DynamicGen 流水线:自动化数据整理流水线,包含两个阶段:
恢复度量尺度的几何结构和运动物体。
生成三个粒度层级(物体、相机、场景)的详细语义字幕。
2)DynamicVerse 数据集:
规模:10万+ 4D场景,80万+ 掩码单元。
内容:度量尺度点云、相机参数、物体掩码、详细字幕。
来源:整合多个2D视频数据集和现有4D数据集。
3)验证与评估:在视频深度、相机姿态和内参估计任务上验证了性能;通过人体研究和LLM评估验证了字幕质量。
02
相关工作
多模态基础模型:整合了 UniDepthv2 (几何初始化), CoTracker3 & UniMatch (对应关系初始化),Qwen2.5-VL & SA2VA (动态物体分割)。相比同期的 Uni4D,DynamicGen 提供了全局优化的密集4D几何结构和细粒度字幕。
多模态数据集:现有数据集在多样性、几何结构或语义信息上存在不足。DynamicVerse 填补了这一空白。
03
DynamicVerse 框架详解
4D世界建模框架DynamicVerse,提供了一个大规模4D数据集,包含多样化的动态场景以及丰富的多模态标注,包括度量尺度点云图、相机参数、带对应类别的物体掩码和详细的描述性字幕。
DynamicVerse涵盖10万余个4D场景和80余万个掩码单元,数据来源于多个2D视频数据集和现有4D数据集。与以往的4D数据集相比,该数据集在数据规模、场景多样性和模态多样性方面都有显著提升。
3.1 4D场景收集
为了解决可用4D场景数据的稀缺问题,DynamicGen整合了来自各种真实视频数据集的视频数据,包括:DAVIS2017, Youtube-VIS, UVO-dense, VOST, BURST, MOSE, SA-V, PointOdyssey,Spring, Dynamic Replica, MVS-Synth, RealCam-Vid, DynPose-100K。
3.2 数据过滤策略
使用随机森林模型预测视频质量分数 (0-5),特征包括:
近距深度
焦距稳定性
视频模糊度
相机运动平滑度
非透视畸变
基于 VLM 的辅助判断
3.3 运动物体恢复
识别:使用 Qwen2.5-VL 识别运动物体及类别。
分割:使用 SA2VA 生成物体掩码。
尺寸提取:标注运动物体的3D边界框。
3.4 动态光束平差法 (Dynamic Bundle Adjustment)
设计了多阶段优化框架,如图3所示,解决动态物体遮挡和静态场景外观变化问题。
阶段 I:动态掩码生成
基于语义(SA2VA掩码)和基于运动(Unimatch光流+对极误差图)的方法提取动态掩码。
阶段 II:粗略相机初始化
使用 UniDepthV2 估计初始深度和内参。
使用 Co-TrackerV3 估计密集像素运动。
建立 2D-3D 对应关系并优化相机参数。
阶段 III:静态区域光束平差法
联合优化相机姿态和静态几何结构,最小化静态组件能量。
阶段 IV:非刚性光束平差法
冻结相机参数,推断动态结构。
使用 ARAP (As-Rigid-As-Possible) 和平滑项正则化动态结构。
通过深度插值密集化全局点云。
阶段 V:滑动窗口全局优化
冻结相机参数,利用估计的光流优化静态结构,提高多视图一致性。
3.5 动态内容字幕生成
生成了物体、场景、相机三个层级的结构化字幕,并进行人工验证。
1)运动物体字幕:使用 DAM 生成详细、时间对齐的物体描述。
2)动态场景字幕:使用 Qwen2.5-VL,结合物体字幕作为辅助输入,采用分层提示设计。
3)相机运动字幕:分析帧间变换序列,识别平移、倾斜、缩放等运动,生成描述。
4)字幕重述:使用 LLM 对齐不同层级的描述,提高一致性。
5)人机协同质量审查:迭代验证,修正错误数据。
04
实验
4.1 视频深度估计
基准:Sintel, KITTI 数据集。
对比方法:Metric3Dv2, Depth-Pro, DepthCrafter, Unidepth, MonST3R, RCVD。
结果:实验结果如表2所示,DynamicGen 在绝对相对误差(Abs Rel)和几何一致性上取得最佳性能,动态/静态重建效果最清晰。
4.2 相机姿态估计
基准:Sintel, TUM-dynamics 数据集。
对比方法:LEAP-VO, DPVO, Robust-CVD, CasualSAM, MonST3R。
结果:实验结果如表3所示,DynamicGen在平移和旋转准确性(ATE, RPE)方面均优于现有方法。
4.3 相机内参估计
基准:Sintel 数据集。
结果:实验结果如表4所示,DynamicGen在绝对焦距误差(AFE)和相对焦距误差(RFE)方面表现最佳,展示了对无约束视频场景的强大泛化能力。
4.4 字幕质量评估
方法:使用 LLM (G-VEval) 和人工评估。
结果:实验结果如表5所示,整合语义感知关键帧提取、分层提示和CoT提示显著提高了字幕的准确性、完整性、简洁性和相关性。
05
总结
本论文中,为解决传统4D数据整理在可扩展性、物理真实性和模态多样性方面的关键限制,提出了一种自动化流水线DynamicGen。研究人员通过视频深度和相机姿态/内参估计的标准基准、多样化网络视频的定性分析以及人工/LLM基于评估来验证DynamicGen的性能,证实了字幕质量。
利用DynamicGen,构建了一个大规模4D数据集DynamicVerse,包含超10万个视频、超80万个标注掩码以及超1000万个来自互联网视频的帧。DynamicVerse 数据集为推进 4D 场景理解、4D-VLM 和 4D 生成模型提供了重要资源。
END
智猩猩矩阵号各有所长
点击名片即可关注

