新智元报道
【新智元导读】当行业仍受限于昂贵的多视角数据时,中科院与CreateAI联合推出NeoVerse,首次利用百万级单目视频实现4D世界模型的大规模训练,突破扩展性瓶颈,推动AI真正理解开放动态世界。
李飞飞团队提出的Marble推动了空间智能发展,但其局限于静态环境,属于3D世界模型范畴。相比之下,4D世界模型在数字内容创作、自动驾驶仿真和具身智能等领域潜力巨大。然而,当前4D模型训练面临严重扩展性瓶颈。
现有方法依赖成对的原视角视频与同步的新视角目标视频作为监督信号,导致数据获取困难。主要挑战包括:
- 多视角数据难扩展:静态场景采样无法覆盖动态现实,多相机采集成本高,难以泛化至真实开放场景。
- 预处理效率低:基于离线构建单目视频训练对的方法计算开销大,阻碍互联网级数据应用。
这些限制将最丰富、最易获取的资源——开放场景单目视频拒之门外。为此,中科院自动化所与CreateAI提出NeoVerse,彻底摒弃多视角数据与复杂预处理,首次使用100万段开放场景单目视频进行大规模训练。
项目主页:https://neoverse-4d.github.io/
论文链接:https://arxiv.org/abs/2601.00393
前馈式4DGS:免位姿的高效重建底座

NeoVerse采用“重建-生成”混合架构,先重建4D表示,再用于生成模型的新视角几何引导。为实现可扩展训练,其核心是解决重建速度问题,提出免姿态输入的前馈式4DGS模型。
不同于传统迭代优化方法,NeoVerse基于视觉几何基础变换器(VGGT)进行动态化与高斯化改进,无需复杂离线处理,一次前向推理即可在数秒内完成动态场景的4D建模。
双向运动建模
NeoVerse引入双向运动编码分支,通过交叉注意力机制分别提取前向与后向运动特征,精准预测高斯基元的线速度与角速度,支持相邻时间戳间的中间时刻插值渲染。
具体地,帧特征沿时间维度切分为两部分:一部分作为查询,另一部分作为键与值,分别获取前向与后向运动特征,用于预测高斯基元的动态属性。
4D高斯化
NeoVerse定义的4D高斯基元包含:
- 传统3D属性:位置、不透明度、朝向、大小、球谐系数
- 动态属性:前后向线速度与角速度
- 生命周期参数
其中3D位置由深度预测与相机参数反投影获得;动态属性由双向运动特征预测;其余属性由帧特征直接预测。
秒级在线构建数据对:规模化训练4D世界模型
稀疏帧重建 × 密集帧渲染
为提升训练效率,NeoVerse采用“稀疏帧重建,密集帧渲染”策略。仅输入少量关键帧,通过高斯场插值生成连续视频画面。
对于非关键帧时间戳,将其最近的关键帧下的高斯基元进行时间转移与插值,实现中间帧渲染。同时引入归一化时间距离建模不透明度衰减,并约束生命周期范围,确保视觉连贯性。
单目退化模拟
针对单目视频缺乏新视角监督的问题,NeoVerse创新性提出单目退化模拟机制,构建自监督训练范式:
- 高斯剔除(Gaussian Culling):模拟遮挡与视场丢失,迫使模型在信息缺失下保持几何完整性。
- 平均几何滤波(Average Geometry Filter):模拟深度不连续处的飞边现象,通过深度图滤波调整高斯基元位置,再现典型重建退化。
退化渲染引导
NeoVerse通过控制分支将退化模拟结果(包括图像、深度、不透明度图及Plüker嵌入)注入视频生成模型。训练中仅更新控制分支,冻结主干网络,既提升效率,又支持LoRAs步数蒸馏,加速生成过程。
实验结果与分析

在VBench测试400个样例中,NeoVerse在运行速度与生成质量上均显著优于现有方法。
即使在大视角变换下,NeoVerse仍能保持精确相机控制与高质量生成。
对比实验证明,未经过退化模拟训练的模型易产生“鬼影”或模糊输出;而NeoVerse通过学习抑制几何伪影,在遮挡区域也能生成逼真细节。
下游应用
依托大规模训练能力,NeoVerse支持多领域应用:
- 子弹时间效果生成
- 图像到世界:重建与生成闭环迭代
- 多样化相机路径控制
- 视频编辑
- 具身智能场景交互
- 自动驾驶仿真:从前视单目扩展至多视角感知
总结
NeoVerse标志着4D空间智能从“实验室精雕”迈向“数据驱动”的范式转变。通过攻克扩展性瓶颈,构建适配互联网单目视频的训练管线,实现了泛化能力的质变,成为支撑自动驾驶、具身智能与内容创作的通用4D世界模型底座。

