ICCV'25｜DeT让你从人到熊猫无缝“换身”跳街舞，SOTA级运动迁移来了！

极市平台

2025-08-12

↑ 点击蓝字关注极市平台

作者丨史清宇，李祥泰

编辑丨极市平台

极市导读

本文提出了全新的 DeT 方法，通过共享时序卷积与稠密追踪损失，实现了 Video Diffusion Transformers 的高效运动迁移，不仅精确还原原视频动作，还能灵活控制前景与背景。>>加入极市CV技术交流群，走在计算机视觉的最前沿

亮点总结

简单高效的运动迁移方法——DeT：本文提出了一种能够同步解耦与追踪的共享时序卷积模块，并引入追踪损失函数以增强前景时序一致性，该方法设计简洁且在Video Diffusion Transformers模型上展现出卓越性能。
规模最大的公开测试基准：本文构建了MTBench测试集，是目前规模最大、覆盖最全面的运动迁移评估基准，包含500个测试样本，并对运动难度进行了三级精细划分。
更完备的评估指标体系：本文通过局部速度方向与全局轮廓特征的联合分析，全面评估源视频与生成视频的运动一致性，建立了更完善的量化评测指标。
最优异的运动迁移性能：在MTBench测试基准上的实验结果表明，我们的模型实现了当前最优的运动迁移效果，既能精确迁移原始运动，又能通过文本指令灵活调控生成内容。

1. 研究动机

现有方法的局限

目前主流的 运动迁移（motion transfer）工作大多基于 U‑Net 架构，利用空间、时间分离的建模方式（先 2D 空间卷积 / 注意力，再 1D 时间卷积 / 注意力）解偶运动信息。这种分离设计有利于抽取运动，但生成质量受限于 U‑Net，并且现有方法难以应用到 Video Diffusion Transformers（Video DiT）上。

Video DiT 的难点

Video DiT 通过 3D 注意力同时建模外观与运动，在开源社区有state-of-the-art（sota）的视频生成性能；可一旦直接微调部分参数做运动迁移，由于外观与运动被深度绑定，很难准确迁移运动的同时灵活编辑前景和背景。

现有Benchmark和Metric的局限性

现有运动迁移任务的Benchmark规模较小，难度也不够全面。并且Metric只关注轨迹局部的速度方向，没有关注全局的轨迹形状。

2. 关键的发现

时序上的局部特征就可以学到运动

如图1所示，在MM-DiT的3D Attention中，每个位置的特征主要关注同一空间，局部时间的局部特征，因此通过时序上的局部建模即可学习到特征沿时序的变化，也就是运动。

图1: 对3D Attention Map的可视化，我们发现在3D Attention中，特定帧上的image patch主要关注相邻帧同一空间位置的image patch（用红色图标标注），对其他空间和时间位置的image patch关注度相对较低（用蓝色图标标注）

沿着时序做平滑会更容易解偶出运动

如图2所示，在对DiT feature的可视化中，我们发现前景特征延时序一致，而背景特征延时序不一致，且在某些帧会与前景特征难以区分。为了学习前景运动时避免“记住”背景的外观，我们可以通过延时序做平滑的方式，帮助模型更好的区分前景和背景特征。

图2: 通过对DiT中间层特征（命名为DiT feature）的PCA可视化，我们发现前景特征沿着时序有较强的一致性，而背景特征沿着时序不一致。并且在某些帧上（例子中的第三帧）前景特征和背景特征可能出现难以区分的情况

幸运的是，以上两点可以通过相同的设计来完成——沿着时序的卷积操作

3. 方法

1.解偶和追踪同时完成 — 共享时序卷积

动机：

通过上述分析，我们采用沿着时序的卷积算子，解耦出前景运动的同时学习运动。具体而言，如图3所示，我们在3D Full Attention外“并连”了down-and-up结构的卷积模块，节约了计算与显存的开销。这里的Conv1D仅作用于时序维度，并且在空间维度上是共享的。这样的设计可以缓解模型记住视频内容外观的问题，使得DeT可以灵活的通过文本控制生成内容的外观。

时序卷积的双重作用：

平滑相邻帧特征，解耦出前景的运动，帮助模型更好的学习前景运动
显式编码运动，卷积核权重在训练过程中可以学习到视频中的运动模式

图3: 共享时序卷积的平滑原理与模型结构图：在（a）中，我们展示了共享时序卷积对解耦前景运动的提升原理：通过对背景特征沿着时序的平滑，我们可以在前背景特征难以区分的帧上更容易区分，从而避免模型记住背景的外观；在（b）中我们展示了共享时序卷积的实现，通过简单但有效的方法，我们可以在学习运动的同时避免过拟合到前背景的外观。

2.增强前景运动一致性 — 稠密追踪损失

动机：

受到前景特征沿着时序一致性的鼓舞，我们在训练过程中显示加入对前景特征一致性的监督，让共享时序卷积更准确地学习到前景的运动。

稠密追踪损失：

具体而言，我们采用GroundedSAM先得到前景的掩码，通过采样得到关键点集合；然后借助 CoTracker3 追踪前景的关键点，最小化跨帧特征距离，增强生成视频的运动轨迹在时序上的平滑一致。计算的方式如图4所示，考虑到复杂运动可能存在遮挡的问题，我们引入可见掩码，屏蔽了不可见轨迹上的损失计算。

4. 更全面的测试基准—MTBench

动机：

现有的运动迁移方法评测通常在小规模基准上进行，且未充分考虑运动难度的差异，这限制了评估的全面性和可靠性。为了更准确地衡量运动迁移方法的性能，我们提出了MTBench——一个规模更大、涵盖不同运动难度的标准化测试基准。

MTBench:

我们提出了一个更大且更通用的运动迁移任务测试基准 MTBench。考虑到中心化前景和较大动态程度的需求，MTBench 来源于两个公开数据集DAVIS和YouTubeVOS。我们精选了 100 个高质量视频，并利用多模态大模型Qwen2.5-VL、大语言模型Qwen2.5 以及CoTracker3 对视频进行标注。对于每个源视频，我们生成了五个评测提示并标注前景轨迹——轨迹的初始点通过距离加权采样从掩码中选取，这种方式使得孤立稀疏点更容易被采样，从而保证在手脚等狭窄但重要的区域内也能进行采样。随后，我们应用自动聚类算法对轨迹进行分组，并根据聚类数将运动难度划分为三个等级，图5给出了运动的分布以及三个难度的示例。此外，我们还提出了一种混合运动保真度指标。与仅依赖轨迹局部速度相似性的方法不同，我们引入 Fréchet 距离来衡量轨迹全局形状的一致性。结合 MTBench 与混合运动保真度指标，我们的工作为运动迁移方法提供了更全面的评测手段。

5. 实验结果

1.定量结果：

如图6所示，我们的方法 DeT 基于 HunyuanVideo，在运动保真度（Motion Fidelity）上取得了最高分，并在编辑保真度（Edit Fidelity）与运动保真度之间实现了最均衡的权衡。将 MotionInversion、DreamBooth 和 DMT 适配至 Video DiT 模型后，在所有指标上的表现均明显落后，凸显出我们工作的贡献与价值。