

CVPR 2024｜MotionEditor：首个面向动作编辑的视频扩散模型

极市平台

2024-06-04

↑ 点击蓝字关注极市平台

作者丨CVer

来源丨CVer

编辑丨极市平台

极市导读

MotionEditor，首次利用扩散模型实现了视频运动信息的编辑。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

MotionEditor: Editing Video Motion via Content-Aware Diffusion

项目主页：https://francis-rings.github.io/MotionEditor/

论文地址：https://arxiv.org/pdf/2311.18830

代码：https://github.com/Francis-Rings/MotionEditor

1. 简介

尽管扩散模型在图像和视频编辑领域取得了显著的成功，但现有的工作主要集中在纹理编辑，即对视频中人物的属性、视频背景和视频风格进行编辑，尚未考虑到对视频中最独特、最鲜明的运动信息进行编辑。在本文中，我们首次探索了对视频动作的编辑，即给定参考视频和提示，我们的目标是对源视频的人物动作进行编辑，使其与参考视频中的人物动作保持一致，并在此过程中保留人物的外观信息。

为此，我们提出了MotionEditor，首次利用扩散模型实现了视频运动信息的编辑，如图1所示。MotionEditor首先针对原始视频进行单样本学习（one-shot learninig）以保留原始视频的纹理特征。具体地，针对ControlNet缺乏时序一致性的建模能力的难题，我们设计了运动适配器以增强时序建模能力及对姿态信号的控制能力，从而实现姿态信息与外观信息的高效交互，以保留原始视频的外观信息。在推理时，给定目标视频，我们设计了一种骨架对齐算法以缓解源视频姿态骨架和目标视频姿态参考骨架之间的大小和位置差异，从而将目标视频的动作更好地迁移到原始视频中。我们还设计了基于两分支架构（重建和编辑分支）的注意力注入机制，以保留源视频中人物和背景信息，并通过分支的交互大幅提升了生成质量。

图1.MotionEditor: 一个基于扩散模型的视频编辑方法，可以将给定的参考视频中的运动信息迁移到源视频上。

2. 方法

2-1. 模型整体架构

如图2所示，MotionEditor首先通过引入额外的时序自注意力层将扩散模型中U-Net的空间Transformer扩展为3D Transformer，并提出了Consistent-Sparse Attention (CS Attention) 以取代扩散模型原始的空间自注意力。为了实现精确的运动编辑并保证时序一致性，我们设计了一个运动适配器对来自U-Net的特征和来自ControlNet的姿态信息进行融合。进而，我们采用单样本学习的策略来训练时序注意模块和运动适配器，以重建源视频输入。

在推理过程中，给定参考目标视频的运动信息迁移到源视频，同时保留源视频的外观信息。为此，我们首先设计一种骨架对齐算法，通过考虑位置和大小来减少源视频姿态骨架和目标视频姿态参考骨架之间的差距，并输出对齐后的目标骨架。然后，我们对视频的像素值进行DDIM反演，从而产生潜在噪声作为采样的起点。更重要的是，我们设计了包含重建和编辑两分支的网络结构，并设计了一种高保真注意力注入机制用来实现两分支的交互，从而使生成的视频能够保持原始视频的复杂背景信息和人物的衣服纹理信息。具体地，编辑分支利用目标姿态骨架的特征将运动信息从目标视频迁移到源视频，并基于重建分支的关键外观信息，使生成的编辑视频保留原视频的外观和背景。

在训练阶段，只有运动适配器和U-Net中的时序注意力层是可训练的，在推理阶段，我们首先将源视频和参开视频的人物骨架通过缩放和仿射进行对齐，我们接着构建了一个双分支网络，一个用于重建原视频，一个用于执行视频编辑。运动适配器通过利用来自源视频的潜空间特征(latents)来增强ControlNet的运动信息建模能力，我们同时将来自重建分支的键(K)/值(V)注入到编辑分支中，使模型生成的视频保留原始视频的外观信息。

2-2. 运动适配器

我们的运动适配器将ControlNet输出的特征作为输入，以实现高效的空间建模。该适配器由全局建模路径和局部建模路径并行组成，其中全局建模路径包括内容感知交叉注意力模块和时序自注意力建模模块，局部建模路径则使用两个时序卷积块以捕获局部运动特征。

具体地，我们的交叉注意力模块对来自U-Net和ControlNet的特征进行建模，其中查询来自姿势特征 , 键值来自相应的U-Net生成的潜在表示 (latent code) :

这样的设计可以使运动适配器捕捉视频潜在空间中的运动线索，进而可以实现动作的编辑，避免外观与姿态不一致导致的冲突。

2-3. 高保真注意力注入机制

尽管我们的运动适配器可以准确地捕捉身体姿势，但它可能会意外地改变视频中人物和背景的外观。因此，我们提出从重建分支到编辑分支的高保真注意力注入机制，从而使编辑后的视频保留源视频中人物和背景的细节。由于前景特征和背景特征耦合程度过高，导致传统的注意力融合方法在模糊区域（即运动区域）质量较不理想。为了解决这个问题，我们通过语义掩码将键(K)和值(V)解耦为前景和背景，通过将分离的键(K)和值(V)从重建分支注入到编辑分支，大幅提升了生成质量。注意力注入机制如图3所示。

图3.推理过程中高保真的注意力注入机制示意图。我们利用原视频的前景掩码来引导在一致稀疏注意力中的键(K)/值(V)解耦合

在介绍注入机制之前，我们首先介绍模型中注意力块的细节。U-Net中的每个注意力块由我们设计的一致稀疏注意力（CS-Attention）、交叉注意力和时序注意力组成。我们利用一致稀疏注意力替换原始U-Net中的空间注意力，以在几乎没有额外计算开销的情况下进行时空建模。具体来说，以重建分支为例，一致稀疏注意力中的查询(Q)由当前帧得到，而键/值是从当前帧和当前帧的上一帧得到的。这样的设计可以提高帧间一致性：

其中[.]指的是拼接操作。

在此基础上, 我们在解码阶段将重建分支中一致稀疏注意力和时序注意力的键/值注入到编辑分支。具体地, 对于一致稀疏注意力, 我们使用原视频的背景信息掩码来解耦合前景信息和背景信息,即给定重建分支的键和值 , 我们利用掩码对原始的键/值 (K/V)进行点乘，从而将原始信息解耦合为前景信息和背景信息, 即前景和和背景和

基于掩码的策略可以使生成视频中的背景和前景内容更为保真，值得注意的是，简单的替换在编辑分支的键/值会导致模型生成的视频中存在大量的动作跳变，因为模型会严重地受到来自源视频中运动信息的影响，因此我们结合源视频的动作信息和生成视频的动作信息以生成更加精准的运动描述，在编辑分支，稀疏注意力的键(K)和值(V)都会被注入到键和值更新。