极市导读
本文提出了全新的 DeT 方法,通过共享时序卷积与稠密追踪损失,实现了 Video Diffusion Transformers 的高效运动迁移,不仅精确还原原视频动作,还能灵活控制前景与背景。>>加入极市CV技术交流群,走在计算机视觉的最前沿
亮点总结
-
简单高效的运动迁移方法——DeT:本文提出了一种能够同步解耦与追踪的共享时序卷积模块,并引入追踪损失函数以增强前景时序一致性,该方法设计简洁且在Video Diffusion Transformers模型上展现出卓越性能。
-
规模最大的公开测试基准:本文构建了MTBench测试集,是目前规模最大、覆盖最全面的运动迁移评估基准,包含500个测试样本,并对运动难度进行了三级精细划分。
-
更完备的评估指标体系:本文通过局部速度方向与全局轮廓特征的联合分析,全面评估源视频与生成视频的运动一致性,建立了更完善的量化评测指标。
-
最优异的运动迁移性能:在MTBench测试基准上的实验结果表明,我们的模型实现了当前最优的运动迁移效果,既能精确迁移原始运动,又能通过文本指令灵活调控生成内容。
1. 研究动机
现有方法的局限
目前主流的 运动迁移(motion transfer)工作大多基于 U‑Net 架构 ,利用空间、时间分离的建模方式(先 2D 空间卷积 / 注意力,再 1D 时间卷积 / 注意力)解偶运动信息。这种分离设计有利于抽取运动,但 生成质量受限于 U‑Net,并且现有方法难以应用到 Video Diffusion Transformers(Video DiT) 上。
Video DiT 的难点
Video DiT 通过 3D 注意力 同时建模外观与运动,在开源社区有state-of-the-art(sota)的视频生成性能;可一旦直接微调部分参数做运动迁移,由于外观与运动被深度绑定,很难准确迁移运动的同时灵活编辑前景和背景。
现有Benchmark和Metric的局限性
现有运动迁移任务的Benchmark规模较小,难度也不够全面。并且Metric只关注轨迹局部的速度方向,没有关注全局的轨迹形状。
2. 关键的发现
时序上的局部特征就可以学到运动
如图1所示,在MM-DiT的3D Attention中,每个位置的特征主要关注同一空间,局部时间的局部特征,因此通过时序上的局部建模即可学习到特征沿时序的变化,也就是运动。
沿着时序做平滑会更容易解偶出运动
如图2所示,在对DiT feature的可视化中,我们发现前景特征延时序一致,而背景特征延时序不一致,且在某些帧会与前景特征难以区分。为了学习前景运动时避免“记住”背景的外观,我们可以通过延时序做平滑的方式,帮助模型更好的区分前景和背景特征。
幸运的是,以上两点可以通过相同的设计来完成——沿着时序的卷积操作
3. 方法
1.解偶和追踪同时完成 — 共享时序卷积
动机:
通过上述分析,我们采用沿着时序的卷积算子,解耦出前景运动的同时学习运动。具体而言,如图3所示,我们在3D Full Attention外“并连”了down-and-up结构的卷积模块,节约了计算与显存的开销。这里的Conv1D仅作用于时序维度,并且在空间维度上是共享的。这样的设计可以缓解模型记住视频内容外观的问题,使得DeT可以灵活的通过文本控制生成内容的外观。
时序卷积的双重作用:
-
平滑相邻帧特征,解耦出前景的运动,帮助模型更好的学习前景运动
-
显式编码运动,卷积核权重在训练过程中可以学习到视频中的运动模式
图3: 共享时序卷积的平滑原理与模型结构图:在(a)中,我们展示了共享时序卷积对解耦前景运动的提升原理:通过对背景特征沿着时序的平滑,我们可以在前背景特征难以区分的帧上更容易区分,从而避免模型记住背景的外观;在(b)中我们展示了共享时序卷积的实现,通过简单但有效的方法,我们可以在学习运动的同时避免过拟合到前背景的外观。
2.增强前景运动一致性 — 稠密追踪损失
动机:
受到前景特征沿着时序一致性的鼓舞,我们在训练过程中显示加入对前景特征一致性的监督,让共享时序卷积更准确地学习到前景的运动。
稠密追踪损失:
具体而言,我们采用GroundedSAM先得到前景的掩码,通过采样得到关键点集合;然后借助 CoTracker3 追踪前景的关键点,最小化跨帧特征距离,增强生成视频的运动轨迹在时序上的平滑一致。计算的方式如图4所示,考虑到复杂运动可能存在遮挡的问题,我们引入可见掩码 ,屏蔽了不可见轨迹上的损失计算。
4. 更全面的测试基准—MTBench
动机:
现有的运动迁移方法评测通常在小规模基准上进行,且未充分考虑运动难度的差异,这限制了评估的全面性和可靠性。为了更准确地衡量运动迁移方法的性能,我们提出了MTBench——一个规模更大、涵盖不同运动难度的标准化测试基准。
MTBench:
我们提出了一个更大且更通用的运动迁移任务测试基准 MTBench。考虑到中心化前景和较大动态程度的需求,MTBench 来源于两个公开数据集DAVIS和YouTubeVOS。我们精选了 100 个高质量视频,并利用多模态大模型Qwen2.5-VL、大语言模型Qwen2.5 以及CoTracker3 对视频进行标注。对于每个源视频,我们生成了五个评测提示并标注前景轨迹——轨迹的初始点通过距离加权采样从掩码中选取,这种方式使得孤立稀疏点更容易被采样,从而保证在手脚等狭窄但重要的区域内也能进行采样。随后,我们应用自动聚类算法对轨迹进行分组,并根据聚类数将运动难度划分为三个等级,图5给出了运动的分布以及三个难度的示例。此外,我们还提出了一种混合运动保真度指标。与仅依赖轨迹局部速度相似性的方法不同,我们引入 Fréchet 距离来衡量轨迹全局形状的一致性。结合 MTBench 与混合运动保真度指标,我们的工作为运动迁移方法提供了更全面的评测手段。
5. 实验结果
1.定量结果:
如图6所示,我们的方法 DeT 基于 HunyuanVideo,在运动保真度(Motion Fidelity)上取得了最高分,并在编辑保真度(Edit Fidelity)与运动保真度之间实现了最均衡的权衡。将 MotionInversion、DreamBooth 和 DMT 适配至 Video DiT 模型后,在所有指标上的表现均明显落后,凸显出我们工作的贡献与价值。
2.定性结果:
如下视频所示,我们的方法能够在不对源视频外观过拟合的情况下,准确地迁移运动,并支持对前景和背景的灵活文本控制。此外,它还能实现跨类别的运动迁移,例如从人到熊猫,或从火烈鸟到鹿。
3.定性结果比较:
如下视频所示,Motiondirector和MotionClone 在运动保真度上表现不佳。SMA 难以保证运动在时序上的一致性,出现时序上的跳动。我们的方法DeT不但准确的迁移了运动,保证了时序上的一致性,而且能够灵活地通过文本控制生成的内容,达到了高质量的运动迁移效果。
4.消融实验:
-
a.共享时序卷积
模块设计: 除了使用共享时间卷积核外,我们还考虑了通过 LoRA、Conv3D 和局部注意力的替代方案。图7中的表格3显示,我们的方法在编辑保真度和运动保真度指标上均取得了最佳性能。
共享时序卷积的超参数: 此外,我们分别对丢弃层比例、卷积核大小和中间维度进行了消融实验。图7中表格4的定量结果表明,卷积核大小为 3、且中间维度设置为 128 时性能最佳。
-
b.稠密追踪损失
稠密追踪损失的权重: 我们对稠密点跟踪损失的权重进行了消融实验,发现当损失权重取 0.1 时性能最佳。训练过程中 DiT 特征的余弦相似度表明,稠密点跟踪损失有助于实现精确的前景跟踪。
6. 未来工作
a.模型效率问题:
尽管DeT采用了轻量化设计,但由于Video DiT本身参数量大、计算复杂度高,单个运动迁移任务在单张A100 GPU上仍需约1小时完成,这严重制约了DeT的实际应用效率。
b.模型分层特性利用不足:
目前DeT的分析均基于Video DiT各层特征的平均结果,而实际上不同网络层可能具有不同的建模特性。未来可探索分层特征解耦机制,设计更精细的模块来分别学习动作迁移与外观解耦。
c.极端困难案例的挑战:
MTBench中包含部分高难度样本(如街舞动作,其运动轨迹聚类中心数极高),DeT在此类案例中仍存在明显局限——背景外观易出现"过拟合"现象,导致迁移效果下降,这表明模型对复杂运动的建模能力仍需进一步提升。
一个男人在跳舞
一个宇航员在火星跳街舞
更多的结果请看项目主页:https://shi-qingyu.github.io/DeT.github.io/
代码 与 MTBench 已开放:https://github.com/shi-qingyu/DeT
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

