

NVEdit：赋能T2I时序能力，北大张健团队提出显存高效的神经视频编辑场

极市平台

2023-12-25

↑ 点击蓝字关注极市平台

作者丨main

来源丨AIWalker

编辑丨极市平台

极市导读

本文针对现有的基于扩散模型的算法编辑结果存在明显抖动，且受限于显存限制，难以编辑长视频的缺陷，提出了一种显存高效的长视频编辑算法NVEdit，基于现有的T2I模型实现帧间一致的长视频编辑。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

大家好，今天要介绍的是最近出现的一篇关于文本驱动的视频编辑工作NVEdit。本文针对现有的基于扩散模型的算法编辑结果存在明显抖动，且受限于显存限制，难以编辑长视频的缺陷，提出了一种显存高效的长视频编辑算法NVEdit，基于现有的T2I模型实现帧间一致的长视频编辑。具体来说，本文以隐式神经表示显存高效地编码视频信号，并用T2I模型优化神经网络参数，注入编辑效果，实现帧间一致的长视频编辑。实验证明：NVEdit足以编辑几百上千帧的长视频，且编辑效果高度符合文本指令并保留了原始视频的语义布局。

项目地址：https://nvedit.github.io/

代码地址：https://github.com/Ysz2022/NVEdit

如上图所示，用户可向NVEdit提供文本指令实现帧间一致的高质量视频编辑。比如左侧第一行展示的是狼的视频，用户输入“把狼变成熊的文本”后，NVEdit成功输出一段新的视频（左侧第二行）。本文方法支持各种编辑操作，包括变形、场景变化和风格迁移等，同时保留原始场景的运动和语义布局。由于其高效的编码率，具有几百上千帧的长视频也可被很好地编辑。

本文方案

如图所示，本文方法由两阶段训练组成：视频拟合阶段和场编辑阶段。在视频拟合阶段，作者先用一个神经网络（Neural Video Field）将视频信号编码为模型参数，学习原视频的运动和语义布局等先验。在场编辑阶段，作者逐帧地让神经网络渲染出图片，调用现有的T2I模型对渲染帧进行文本驱动编辑，以编辑帧为伪GT优化网络参数，注入编辑效果。

视频拟合阶段。受益于已有的基于神经场的视频编辑算法，本文选用了一种混合的显隐式编码结构，其将视频建模为一个x-y-t的三维空间，并以三平面和稀疏网格结构显式地编码视频信号。编码后的特征可由一个定制的轻量级MLP（multilayer perceptron）解码回RGB的像素信号。在场编辑阶段中，作者令MLP解码的像素与原始视频对应坐标处的像素值一致，实现以神经网络参数记录视频信号的功能。此过程中，模型充分学习了原始视频的运动及语义布局等先验。

场编辑阶段。考虑到T2I算法的蓬勃发展，本文选用现有的T2I模型（Instruct-Pix2Pix[3]）为视频编辑提供编辑效果。如图所示，作者逐帧渲染图像，并以原视频对应帧和用户指令为条件，调用T2I模型生成编辑帧。编辑帧可作为伪GT进一步优化上一阶段训练好的神经视频场，从而注入编辑效果。

本文实验

本文展示了四组来自 NVEdit 的视觉结果，它支持多种类型的编辑，包括风格迁移和形状变化。每组结果对应的编辑文本都在下方给出。

此外，本文也与其他SOTA的文本驱动视频编辑算法做了对比实验。注意由于本文主要选用Instruct-Pix2Pix（IP2P）提供编辑效果，IP2P作为基准模型也被纳入对比范围。为了尽可能让这个T2I模型生成帧间一致的结果，作者固定了它的随机种子。下图给出了NVEdit和其他 SOTA 方法之间的主观比较。可以看到IP2P无法输出帧间一致的结果，例如箭头指向的区域的差异。其他方法要么扭曲形状，要么编辑了错误的区域，要么无法在不同的视点上运行稳定。NVEdit不仅生成时序一致的内容，而且还能精确控制要编辑的区域。

本文还设计了一些定量指标以客观对比不同方法的视频编辑效果。具体来说，作者设计了两组六个指标，分别为由CLIP计算的3个指标：i) Tem-Con：测量帧间一致性。只采用CLIP中的图像编码器，计算所有连续帧对之间的余弦相似度。ii) Frame-Acc：逐帧编辑精度，表示编辑视频中与目标文本具有更高的CLIP相似度的帧占总帧数的百分比。iii) Vid-Score：编辑帧和目标文本之间的余弦相似度的平均值，表示语义差异。以及根据21名志愿者打分的3个指标，包括“Edit”、“Image”和“Temporal”。这些指标分别衡量编辑帧和目标文本之间的一致性、编辑帧的图像质量和编辑视频的时间一致性。

实验室简介

视觉信息智能学习实验室（VILLA）由张健助理教授在2019年创立并负责，致力于AI内容生成与安全、底层视觉、三维场景理解等研究方向，已在CVPR、ICCV、ECCV、NeurIPS、ICLR、TPAMI、TIP、IJCV、AAAI等高水平国际期刊会议上发表成果50余篇。VILLA在图像合成与编辑领域发布多款爆火技术和产品，包括T2I-Adapter、DragonDiffusion、FreeDoM。其中T2I-Adapter已被AIGC领域的独角兽公司Stability AI与其旗舰模型StableDiffusion-XL结合，推出涂鸦生成产品Stable Doodle。近期，VILLA在AIGC内容生成和安全方面推出了多项工作，包括零样本图生视频新方法AnimateZero，联合篡改定位与版权保护的多功能图像水印EditGuard，扩散隐写新范式CRoSS，基于物理的动态人机交互模拟框架PhysHOI，渐进式3D内容生成框架Progressive3D等。

更多信息可关注：