

CVPR'23 最佳论文提名｜DynIBaR：复杂动态场景的渲染也能高效解决！

极市平台

2023-08-02

导读：基于神经动态图像的渲染

↑ 点击蓝字关注极市平台

作者丨岳廷

编辑丨极市平台

极市导读

即可以对复杂几何场景进行建模并呈现视点依赖效应，同时又可以显著改进静止和动态场景内容的渲染保真度。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

摘要

本文解决从单目视频中扩展复杂动态场景的问题。基于时变神经辐射场(动态NeRF)的最新方法在这项任务上展示了令人印象深刻的结果。但对于具有复杂物体运动和非受控相机轨迹的长视频，这些方法可能会产生模糊或不准确的渲染结果。

本文提出一种新方法，通过以场景运动感知的方式聚合附近视图中的局部图像特征，在体积渲染框架中解决这些局限性。本文的系统保留了先前方法的优点，即能够对复杂场景进行建模并呈现视点依赖效应，但也能够从具有复杂场景动态的长视频中合成逼真的新视图，这些视频具有非受控的相机轨迹。本文在动态场景数据集上证明，与最先进的方法相比，本文的方法能够显著改进渲染质量，且本文方法也可以应用于野外视频、具有富有挑战性的相机和物体运动，而这些场景使用以前的方法会失败。项目网页：dynibar.github.io。

图1:从单目视频中合成新视图的动态场景方法(如HyperNeRF和NSFF)在长视频中无法很好地渲染视图，这些视频具有复杂的相机和场景运动。

本文提出了一种新的方法来解决这些局限性，如上图所示，将本文方法应用于25秒不稳定的视频的，并进行6DoF视频稳化，比较沿平滑相机路径渲染的新视图(左侧)。在此示例中，本文的方法生成了更清晰的结果。在动态场景数据集上(右侧)，本文的方法在渲染保真度方面显著改进，如通过在对应移动物体的像素上合成的图像和LPIPS误差(黄色数字)所示。

1 简介

问题

自NeRF方法提出以来，计算机视觉方法可以以惊人的质量渲染静态3D场景。那么运动场景呢，比如带有人或宠物的场景?从单目视频中合成新视图是一项更具挑战性的动态场景重建问题。由于基于时间变化的神经体积表示方法(如HyperNeRF和神经场景流场(NSFF))的出现，在空间和时间上的新视图合成方面取得了重大进展，这些表示以坐标为基础的多层感知器(MLP)的权重的形式对连续场景辐射场进行编码。

然而，这些基于动态NeRF的方法具有阻碍它们应用于日常野外视频的基本局限性。基于局部场景流的方法(如NSFF)在扩展到带有非受控相机运动的更长输入视频时会遇到困难:NSFF论文仅声称在1秒内保持良好的性能，且视频的拍摄方向需要朝前。HyperNeRF等方法通过构建规范模型可以处理长序列，但在很大程度上仅限于以受控相机录制的以物体为中心的场景，并且可能无法在具有复杂物体运动的动态场景中发挥作用。

解决方案

针对上述提到的问题，本文提出了一种新方法，它具有以下特性：

1)、长时间持续性，对长视频可稳定处理。

2)、无场景约束限制。

3)、不受控的摄像机轨迹。

4)、可适应快速复杂物体运动的动态场景。

本文的方法保留了体积表示的优点，即可以对复杂几何场景进行建模并呈现视点依赖效应，同时又可以显著改进静止和动态场景内容的渲染保真度，如图1所示。

本文提出通过在经过场景运动调整的光线空间中聚合多视图图像特征来正确推断运动时空的变化几何和外观。

本文观察到在将聚合为基础的方法扩展到动态场景时存在许多效率和稳健性挑战。为了有效建模跨多个视图的场景运动，本文使用跨越多个帧的运动轨迹场来表示这种运动，并用学习到的基函数表示。此外，为了实现动态场景重建的时间连贯性，本文在运动调整后的光线空间中引入了一种新的时间光度损失。最后，为了改进空间时间视图合成中的渲染质量，本文通过一个独立训练的运动分割模块和贝叶斯学习框架中的一种新的IBR分割技术来将场景分解为静态和动态组件。

在两个动态场景基准测试中，本文展示了该方法可以实现高度详细的场景内容渲染，并且与最先进的方法相比，可以显著改进，在移动物体区域和整个场景中LPIPS错误平均减少50%以上。本文还展示了该方法可以应用于具有长时间段、复杂场景运动和各种相机轨迹的野外视频，而以前的最先进方法难以在其中生成高质量渲染结果。本文希望本文的工作能推动动态视图合成技术在野外视频上的应用能力。

应用场景

有很多潜在的应用场景，例如：

6DoF视频稳定：DynIBaR可以从抖动的视频中合成平滑的相机路径，从而实现六自由度的视频稳定。
视频编辑：DynIBaR可以从视频中删除或添加物体，或者改变物体的颜色、形状、位置等属性]。
虚拟现实：DynIBaR可以从单目视频中重建动态场景的三维结构和外观，从而实现沉浸式的虚拟现实体验。
视频压缩：DynIBaR可以用较少的数据来表示动态场景的内容和运动，从而实现高效的视频压缩。

2 方法：基于图像的动态渲染

给定单目动态场景视频，对帧和已知相机参数，本文目标是在视频内任意时间合成新视点。与许多其他方法一样，本文针对每个视频进行训练:首先优化模型以重建输入帧，然后使用这些模型渲染新视图。

与最近的动态NeRF方法直接在MLP权重中编码3D颜色和密度不同，本文集成了经典IBR技术思想到体积渲染框架中。与显式表面相比，体积表示可以更容易地建模复杂几何场景并具有视点依赖效应。

下面介绍本文用于场景运动调整的多视图特征聚合方法，以及通过在运动调整的光线空间中渲染强制执行时间一致性的方法。完整的系统结合了一个静态模型和一个动态模型来在每个像素产生一个颜色。通过在贝叶斯学习框架内使用从单独训练的运动分割模块得出的分割掩模进行引导，可以实现准确的场景分解。

基于运动调整的特征聚合

图2:通过基于运动调整的多视图特征聚合进行渲染。给定目标光线上时间i的采样位置，估计其运动轨迹，该轨迹确定附近时间处的3D对应，记为。然后将每个扭曲点投影到其对应的源视图中。沿着投影曲线提取的图像特征聚合并送到带有时间嵌入的光线转换器中，产生每样本颜色和密度。然后沿对进行体积渲染来合成像素颜色。

基于时间一致性的跨时间渲染

图3:通过跨时间渲染实现时间一致性。为了在动态重建中执行时间一致性，本文使用来自附近时间j的场景模型渲染每个帧，将其称为跨时间渲染。来自图像的光线r改为使用弯曲光线进行渲染，即将扭曲到时间。也就是说，在上采样的每个位置，计算出附近时间处的运动调整点和时间以预测其运动轨迹本文沿着该轨迹聚合来自时间

内源视图的图像特征。沿着聚合的特征馈送到带有时间嵌入的光线转换器，以在时间j产生每样本颜色和密度。通过体积渲染合成像素颜色，然后与地面真值颜色进行比较形成重建损失。

值得注意的是，当本文使用来自附近时间j的3D场景内容渲染时间处的目标像素时，可以将来自时间的特征作为光线转换器的输入以及时间嵌入，从而提升解决方案的有效性，因为本文比较的目标像素位于不同的时间。

结合静态和动态模型

如NSFF中观察到的，使用小的时间窗口来估计场景内容对于合成新视图中的静态区域来说是不够的，因为这样的内容在时间上邻近的帧中可能无法观察到。因此，本文遵循NSFF的想法，使用两个独立的表示对整个场景进行建模。动态内容由上述时间变化模型表示(用于优化期间的跨时间渲染)。静态内容由时间不变模型表示，它与时间变化模型以相同的方式使用光线转换器，但在没有任何运动调整的情况下聚合来自附近视图的特征(即沿对极线)，并且在馈送到光线转换器时没有额外的时间输入。

全局空间坐标嵌入

仅使用局部图像特征聚合很难在非表面或遮挡表面点上准确确定密度，因为不同源视图的不一致特征。因此，为了改进全局推理以预测密度，除了时间嵌入之外，本文将全局空间坐标嵌入作为光线转换器的额外输入。

对于时间不变模型，本文将每个提取的局部图像特征与其在目标视图中的对应线坐标，源视图中的线坐标以及全局参考框架中的xyz坐标进行拼接。本文使用Plücker坐标来表示线坐标，因为这些坐标允许本文在没有歧义或奇点的情况下对任意场景和相机几何进行建模。

对于时间变化模型，请回想一下，局部图像特征是沿曲线光线聚合的，如图3所示，但是一旦优化完成，新视图是通过从所需目标视图直接投射的直线光线上聚合特征来渲染的。因此，本文观察到，将x或的3D坐标与对应的2D图像特征进行拼接作为光线转换器的输入会损害视图插值。因此，本文将编码的全局3D坐标x与注意力模块输出的特征(而不是用于预测密度和颜色之前的特征)在光线转换器中进行拼接。

正则化

如先前工作所指出的，使用单目摄像头重建复杂动态场景在本质上是过度约束的，仅使用光度一致性是不够避免优化期间的局部最优的。因此，本文采用了先前工作中使用的正则化方案，主要包含三个部分。是基于数据的正则项，由估计获得的单目深度和光流一致性先验组成。是运动轨迹正则化项，它鼓励估计的运动轨迹是循环一致和空间-时间光滑的；是紧密性先验，它通过熵和畸变损失鼓励场景分解是二值的。

最后本文的主要表示用于空间-时间视图合成的最终优化组合损失如下: 。

3 评估

3.1 实现细节

数据集

本文在Nvidia动态场景数据集和UCSD动态场景数据集上进行数值评估。每个数据集由同步多视角相机录制的八个正对动态场景组成。本文从每个序列中派生单目视频，其中每个视频包含100~250帧。本文删除了缺少大面积运动物体的帧。并使用每个时间实例的未使用图像进行评估。

视图选择

对于时间变化的动态模型，本文在所有实验中使用帧窗口半径。对于表示静态场景内容的时间不变模型，本文对动态场景基准和野外视频使用不同的策略。对于具有离散相机阵列位置的基准测试，本文选择所有附近不同的视点，其时间步长在目标时间内12帧之内。对于野外视频，天真地选择最近的源视图可能会导致糟糕的重建，因为相机基线不足。因此，为了确保对于任何渲染像素，本文都有足够的源视图来计算其颜色，本文从远程帧中选择源视图。如果本文希望为时间不变模型选择个源视图，本文将输入视频中的每个框架进行子采样，以构建候选池，其中对于给定的目标时间，本文仅在帧内搜索源视图。本文使用基于SfM点可见性和相机相对基线的方法估计。然后，本文通过选择与目标视图相机基线最接近的候选池中的前帧构建源视图的最终集。本文设置 = 16。

时间插值

本文的方法还允许通过执行基于场景运动的散射来进行时间插值，如NSFF 所引入的。要在指定的目标分数时间渲染，本文在两个附近的输入时间预测体积密度和颜色，方法是从它们各自的源视图集聚合局部图像特征。然后通过场景流派生的运动进行线性混合和加权预测的颜色和密度，并根据目标分数时间索引进行加权。

方法

本文使用COLMAP 估计相机姿态。对于每个光线，本文使用逐级采样策略，每条光线采样128个样本。为每个场景训练一个独立的模型，使用Adam优化器。本文在标准欧几里德空间中重建整个场景。在八个Nvidia A100上优化一个10秒视频的完整系统大约需要两天时间，渲染一个768×432帧大约需要20秒。

3.2 基线和误差指标

将本文的方法与最先进的单目视图合成方法进行比较。具体来说，与两个最近的以规范空间为基础的方法Nerfies 和HyperNeRF 以及两个基于场景流的方法NSFF和动态视图合成(DVS) 方法进行比较。为了公平比较，本文对其他方法使用与本文的方法相同的深度、光流和运动分割掩码作为输入。

本文用三个标准错误指标报告每个方法的渲染质量:峰值信噪比(PSNR)、结构相似性(SSIM)和通过LPIPS 的感知相似性，并在整个场景上计算错误(全局)以及仅在移动区域上计算错误(仅动态)。

3.3 定量评估

两个基准数据集上的定量结果如表1和表2所示。本文的方法显著改进了先前最先进的方法的所有错误指标。值得注意的是，本文的方法在两个数据集上都比第二好的方法提高了2dB以上的整场景PSNR。本文的方法还降低了LPIPS误差，这是与真实图像的感知质量的重要指标，超过50%。这些结果表明本文的框架比最近的方法更有效地恢复高度详细的场景内容。

3.4 定性评估

动态场景数据集

本文在Nvidia数据集、UCSD数据集上提供本文的方法与三种先前最先进方法的定性比较。先前的动态NeRF方法在渲染移动物体的细节时存在困难，如球，人脸和衣服等过度模糊的动态内容所示。相比之下，本文的方法可以合成静态和动态场景内容的逼真新视图，这些视图最接近真值图像。

野外视频

本文还在野外视频上进行定性比较，这些视频拍摄复杂的动态场景。每个视频长10秒(300帧)，并具有不同类型的相机轨迹，包括向前、向后和平移运动，并描绘具有挑战性的物体运动，如奔跑和舞蹈，如图8所示。本文的方法可以合成逼真的新视图，而以前的方法无法合成高质量的详细场景内容图像，例如第一行中的衬衫皱褶，第二行中的狗的皮毛，以及最后一行人物的脸部和衣服。

本文展示了几个10秒复杂动态场景的结果，这些场景具有不同类型的相机轨迹。最左列显示每个视频的起始和结束帧；在右侧，本文展示在中间时间渲染的新视图，这些视图来自本文的方法和之前的最新方法。

4 讨论和结论

本文提出了一种从展示复杂动态场景的单目视频中进行空间-时间视图合成的新方法。通过在体积IBR框架中表示动态场景，本文的方法克服了最近方法无法处理长视频、复杂相机和物体运动的局限性。本文已经展示了本文的方法可以从野外动态视频中合成逼真的新视图，并且与最近的方法相比，在动态场景基准测试中可以获得显著改进，但也存在一定的局限性：无法合成未见区域。