大数跨境
0
0

可灵团队论文ReCamMaster入选ICCV 2025 Best Paper Finalist

可灵团队论文ReCamMaster入选ICCV 2025 Best Paper Finalist 快手技术
2025-10-24
1
导读:本文聚焦论文的核心insight,并阐释其对世界模型与空间智能的启示。
图片

导读


世界模型与空间智能正在成为大模型领域备受关注的研究方向,视频生成模型在其中扮演了重要的角色。然而,我们该怎样用视频生成模型建模空间?我们是否需要构建显式的3D表征让模型理解我们所处的3D进而是4D的空间?视频生成模型是否有理解给定场景的能力?我们是否可以通过Context做到场景的保持?可灵研究团队从视频的重运镜任务作为一个切入点,做了初步的尝试,提出的ReCamMaster 为以上几个问题提供了新的视角,希望能够启发后续的研究思路。


近期,可灵团队提出了一种可将输入视频沿新相机轨迹重新运镜的视频生成模型ReCamMaster研究工作发表于计算机视觉顶级会议ICCV 2025,并入选Best Paper Finalist用户可以上传任意视频并指定新相机拍摄轨迹,实现已有视频的重运镜。该工作还发布了一个高质量多相机同步拍摄的视频数据集MultiCamVideo-Dataset数据集和训练、测试代码均已开源。本文总结了该论文的核心算法以及boarder impact。
  • 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
  • 项目主页:https://jianhongbai.github.io/ReCamMaster
  • 代码:https://github.com/KwaiVGI/ReCamMaster
  • 论文:https://arxiv.org/abs/2503.11647

一、ReCamMaster能力展示

图片





1.视频重运镜


2.4D场景重建


3.视频去抖动


4.在自动驾驶、具身智能等场景作为数据生成器



可以观察到,ReCamMaster生成的视频可以保持原视频中的场景和动态,并在不同场景有较好的泛化性。更多示例请

访问项目主页(点击「阅读全文」即可观看):https://jianhongbai.github.io/ReCamMaster/

二、ReCamMaster创新点&insight

图片





研究者表示,ReCamMaster的核心insight为:

1.实验表明视频生成模型可以理解给定的4D场景,可将其作为渲染器生成3D、4D一致的内容,体现了视频生成模型在空间智能、世界模型等方向的巨大潜力。

2.视频生成模型无需显式3D建模即可实现良好的3D一致性,且该范式与传统显式3D建模相比更易于scale up。

3.验证 in-context conditioning 的条件注入范式的有效性,该范式性能显著优于ControlNet等方法,在后续试验中被验证可以泛化到更多任务场景。


三、任务定义及挑战

图片






给定一段“源视频”和“目标摄像机轨迹”作为输入,我们的目标是合成共享相同动态场景(4D一致)并遵循输入轨迹的“目标视频”。

该任务的核心挑战在于:
(1)如何有效注入条件信号使模型学到4D一致性;
(2)如何获取高质量训练数据。

四、算法解读

图片







为了使模型学到良好的4D一致性,我们需要确定实际输入模型的内容。与之前明确构建 3D 监督的方法不同,我们直接输入 2D 视频帧作为模型的输入。值得一提的是,我们发现该模型无需明确的 3D 监督即可学习 3D 一致性。在此基础上,我们引入了in-context conditioning范式以注入条件信号。

In-context conditioning范式,即将condition video作为视频生成模型的context注入,该算法的具体设计如上图所示。所提出的范式较之前工作所常用的ControlNet等方案有显著的性能提升。

五、MultiCamVideo数据集

图片





MultiCamVideo数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 13,600 个不同的动态场景,每个场景由 10个摄像机沿不同的相机轨迹拍摄,总计 136,000 个视频,112,000个不同的相机轨迹。MultiCamVideo 以 66 个不同的人物为“主要拍摄对象”,93中不同的人物动作,和 37 个高质量3D环境作为背景。数据集示例如下:


六、ReCamMaster实验结果

图片






视频中研究者将 ReCamMaster 与最先进的方法进行了比较,ReCamMaster较baseline有较大幅度的性能提升。

七、主要启示

图片






ReCamMaster 是一项初步探索,其主要启示如下:
1.视频生成模型能够理解 4D 场景,并生成 3D/4D 一致的内容,从而推动了空间智能和世界模型的发展。
2.最小化 3D 归纳偏差的学习方法更易于scale up,并通常能够带来更优异的性能。
3.基于 Transformer 的生成模型中,in-context conditioning的条件注入范式被验证有效,其具有推广到更广泛任务的潜力。


八、总结

图片








在本文中,研究者提出了 ReCamMaster,一种可将输入视频沿新相机轨迹重新运镜的视频生成模型


ReCamMaster提出了一种简单且有效的in-context conditioning范式,其性能显著优于类似ControlNet等 baseline方法。研究者还发布了多相机同步视频数据集MultiCamVideo-Dataset用于相机可控的视频生成、4D重建等领域的研究。


本文核心insight:(1)视频生成模型可以理解给定的4D场景,可将其作为渲染器生成3D、4D一致的内容,体现了视频生成模型在空间智能、世界模型等方向的巨大潜力(2)此外,实验表明,视频生成模型无需显式3D建模即可实现良好的3D一致性,且本文所使用范式与传统显式3D建模相比更易于scale up。


更多细节请参阅原论文。

【END】


图片

点个在看你最好看


【声明】内容源于网络
0
0
快手技术
快手官方技术号,即时播报快手技术实践的最新动态
内容 269
粉丝 0
快手技术 快手官方技术号,即时播报快手技术实践的最新动态
总阅读57
粉丝0
内容269