大数跨境
0
0

港科大(广州)等提出DualCamCtrl:双分支扩散框架,视频生成相机控制误差锐减40%!

港科大(广州)等提出DualCamCtrl:双分支扩散框架,视频生成相机控制误差锐减40%! 我爱计算机视觉
2025-12-04
3
导读:精准运镜,“几何”和“RGB”无缝配合!

  • 论文标题: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 作者: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
  • 机构: 香港科技大学(广州)、香港科技大学、复旦大学、深圳大学、Knowin
  • 论文地址: https://arxiv.org/abs/2511.23127
  • 项目主页: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 代码仓库: https://github.com/EnVision-Research/DualCamCtrl

最近,AI视频生成领域可以说是百花齐放,但大家有没有发现,很多模型生成的视频虽然惊艳,可一旦涉及到复杂的镜头运动,就容易“翻车”,出现画面扭曲、物体“漂移”等问题。这背后的一个关键原因,就是模型对场景的几何结构理解不够深刻。

为了解决这个痛点,来自港科大(广州)等机构的研究者们,带来了一个全新的解决方案——DualCamCtrl。看名字就很有意思,“DualCam”指的是“双重相机”,暗示了它独特的双分支设计。简单来说,这个模型不再是单打独斗地生成RGB图像,而是聪明地引入了深度(Depth)信息作为“另一只眼”,让模型在生成视频时,既能看到绚丽的色彩,也能“摸”到场景的骨架。最终的效果也相当给力,在相机控制视频生成任务中,实现了相机运动误差降低超过40%的优异成绩。

现有方法的瓶颈

在聊DualCamCtrl的具体做法之前,我们先来看看为什么现有的方法会“力不从心”。

目前,主流的相机控制视频生成方法,通常是把相机轨迹(比如旋转、平移参数)编码成一种叫做“普吕克坐标(Plücker Coordinates)”的射线信息,作为条件送给扩散模型。这就像是告诉模型:“你接下来要沿着这条轨道移动摄像机。”

这种方式在一定程度上是有效的,但它缺少了对场景三维空间的“敬畏之心”。模型只知道镜头轨迹,却不清楚镜头前方的物体哪个在前、哪个在后,它们的真实形状是怎样的。这就导致在镜头运动时,模型很可能会“脑补”出一些不符合物理规律的画面,造成视觉上的不一致和伪影。

如上图所示,相较于当前最好的方法,在相同的相机轨迹和输入图像下,DualCamCtrl 生成的视频能更好地遵循相机运动,并且视觉质量也更高。

DualCamCtrl的核心设计:双分支与互对齐

为了让模型真正具备“几何感知”能力,DualCamCtrl设计了一个精巧的双分支扩散框架(Dual-Branch Diffusion Framework)。

从上方的整体架构图可以看到,DualCamCtrl的核心思想是“分而治之,再而合一”。它有两个并行的处理流:

  • RGB分支: 负责生成我们最终看到的彩色视频序列。
  • 深度分支: 专门负责生成与RGB视频同步的深度图序列。

这两个分支都接收相同的相机位姿作为条件,但它们各自专注于自己的任务。这样一来,模型就能更好地解耦外观(Appearance)和几何(Geometry)的学习,避免了在一个模型里“既要...又要...”的混乱局面。

SIGMA:让RGB和深度“心有灵犀”

当然,仅仅有两个独立的分支是不够的。如果RGB分支和深度分支各玩各的,生成的结果很可能对不上号,比如一个物体在RGB视频里向左移动,在深度图里却向右移动了,这就更糟糕了。

为了解决这个“模态错位”(Modality Misalignment)的问题,研究者们提出了一个关键机制——语义引导的互相对齐(Semantic Guided Mutual Alignment, SIGMA)

这个名字听起来有点复杂,但原理很直观。它不是简单地把深度信息单向地灌输给RGB分支,也不是反过来,而是一种“双向奔赴”的互动。

  • 从RGB到深度: 在去噪过程的早期,利用RGB特征中丰富的语义信息来“锚定”深度图的整体结构。这保证了深度图的生成是符合场景内容的,而不是凭空想象。
  • 从深度到RGB: 在去噪过程的后期,再利用已经比较靠谱的深度信息反过来“纠正”RGB视频的几何一致性,比如物体的边缘、前后关系等。

这种“先语义,后几何”的相互反馈机制,使得两个分支能够互相学习、互为补充,最终生成语义和几何都高度一致的视频。

3D融合与两阶段训练

为了让两个分支的信息交互更充分,DualCamCtrl还设计了一个3D融合模块(3D Fusion Block),使用3D卷积来处理时空信息,确保融合过程在时间和空间上都是连贯的。

此外,整个模型的训练也颇有讲究,采用的是“两阶段训练策略”:

  1. 解耦阶段: 先让RGB和深度两个分支各自独立训练,学会生成各自模态的基本内容。
  2. 融合阶段: 然后再将两个分支连接起来,引入SIGMA机制进行联合微调,学习如何协同工作。

实验证明,这种先“各自为战”再“一致对外”的训练方式,相比于一开始就联合训练,能够取得更好的收敛效果和生成质量。

去噪过程新发现:不同阶段,各司其职

除了提出新模型,这篇论文还有一个有趣的贡献:它系统性地分析了相机位姿和深度信息在扩散模型去噪过程中的不同阶段所扮演的角色。

研究发现:

  • 去噪前期阶段: 对最终的全局结构和相机轨迹起着决定性作用。这个阶段的引导如果做好了,视频的整体运镜就稳了。
  • 去噪后期阶段: 则更多地负责局部细节的精炼,比如物体的边缘、表面的纹理等。

这个发现不仅加深了我们对视频扩散模型的理解,也为未来如何更高效地进行模型推理和调度提供了宝贵的参考。

实验效果:精准可控,质量更优

DualCamCtrl在多个公开数据集上都取得了当前最佳(SOTA)的性能。

在I2V(图像到视频)任务中,与之前的方法相比,DualCamCtrl不仅在FVD、FID等客观指标上大幅领先,更重要的是,在衡量相机运动准确性的旋转误差(RotErr)和平移误差(TransErr)上,实现了约40%的降低

上图的定性对比也直观地展示了DualCamCtrl的优势。给定相同的输入和相机轨迹,新方法生成的视频在场景动态和相机运动的对齐上做得最好,视觉效果也最为准确。上图中作者用“+”号标记了一些参考点,方便大家进行对比。

写在最后

总的来说,DualCamCtrl通过引入深度信息和精巧的双分支互对齐机制,成功地为相机控制的视频生成任务注入了宝贵的几何感知能力。它不仅显著提升了相机运动的准确性,也为我们揭示了视频生成过程中不同阶段的动态作用,可以说是为“AI导演”的进阶之路,又提供了新参考。

【声明】内容源于网络
0
0
我爱计算机视觉
探寻CV新知,发现AI价值
内容 3637
粉丝 0
我爱计算机视觉 探寻CV新知,发现AI价值
总阅读640
粉丝0
内容3.6k