导读
世界模型与空间智能正在成为大模型领域备受关注的研究方向,视频生成模型在其中扮演了重要的角色。然而,我们该怎样用视频生成模型建模空间?我们是否需要构建显式的3D表征让模型理解我们所处的3D进而是4D的空间?视频生成模型是否有理解给定场景的能力?我们是否可以通过Context做到场景的保持?可灵研究团队从视频的重运镜任务作为一个切入点,做了初步的尝试,提出的ReCamMaster 为以上几个问题提供了新的视角,希望能够启发后续的研究思路。
-
论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video -
项目主页:https://jianhongbai.github.io/ReCamMaster -
代码:https://github.com/KwaiVGI/ReCamMaster -
论文:https://arxiv.org/abs/2503.11647
1.视频重运镜
2.4D场景重建
3.视频去抖动
4.在自动驾驶、具身智能等场景作为数据生成器
可以观察到,ReCamMaster生成的视频可以保持原视频中的场景和动态,并在不同场景有较好的泛化性。更多示例请
研究者表示,ReCamMaster的核心insight为:
1.实验表明视频生成模型可以理解给定的4D场景,可将其作为渲染器生成3D、4D一致的内容,体现了视频生成模型在空间智能、世界模型等方向的巨大潜力。
2.视频生成模型无需显式3D建模即可实现良好的3D一致性,且该范式与传统显式3D建模相比更易于scale up。
3.验证 in-context conditioning 的条件注入范式的有效性,该范式性能显著优于ControlNet等方法,在后续试验中被验证可以泛化到更多任务场景。

为了使模型学到良好的4D一致性,我们需要确定实际输入模型的内容。与之前明确构建 3D 监督的方法不同,我们直接输入 2D 视频帧作为模型的输入。值得一提的是,我们发现该模型无需明确的 3D 监督即可学习 3D 一致性。在此基础上,我们引入了in-context conditioning范式以注入条件信号。
在本文中,研究者提出了 ReCamMaster,一种可将输入视频沿新相机轨迹重新运镜的视频生成模型。
ReCamMaster提出了一种简单且有效的in-context conditioning范式,其性能显著优于类似ControlNet等 baseline方法。研究者还发布了多相机同步视频数据集MultiCamVideo-Dataset用于相机可控的视频生成、4D重建等领域的研究。
本文核心insight:(1)视频生成模型可以理解给定的4D场景,可将其作为渲染器生成3D、4D一致的内容,体现了视频生成模型在空间智能、世界模型等方向的巨大潜力。(2)此外,实验表明,视频生成模型无需显式3D建模即可实现良好的3D一致性,且本文所使用范式与传统显式3D建模相比更易于scale up。
【END】
点个在看你最好看

