大数跨境
0
0

ICCV'25|DeT让你从人到熊猫无缝“换身”跳街舞,SOTA级运动迁移来了!

ICCV'25|DeT让你从人到熊猫无缝“换身”跳街舞,SOTA级运动迁移来了! 极市平台
2025-08-12
0
↑ 点击蓝字 关注极市平台
作者丨史清宇,李祥泰
编辑丨极市平台

极市导读

 

本文提出了全新的 DeT 方法,通过共享时序卷积与稠密追踪损失,实现了 Video Diffusion Transformers 的高效运动迁移,不仅精确还原原视频动作,还能灵活控制前景与背景。>>加入极市CV技术交流群,走在计算机视觉的最前沿

亮点总结

  1. 简单高效的运动迁移方法——DeT:本文提出了一种能够同步解耦与追踪的共享时序卷积模块,并引入追踪损失函数以增强前景时序一致性,该方法设计简洁且在Video Diffusion Transformers模型上展现出卓越性能。

  2. 规模最大的公开测试基准:本文构建了MTBench测试集,是目前规模最大、覆盖最全面的运动迁移评估基准,包含500个测试样本,并对运动难度进行了三级精细划分。

  3. 更完备的评估指标体系:本文通过局部速度方向与全局轮廓特征的联合分析,全面评估源视频与生成视频的运动一致性,建立了更完善的量化评测指标。

  4. 最优异的运动迁移性能:在MTBench测试基准上的实验结果表明,我们的模型实现了当前最优的运动迁移效果,既能精确迁移原始运动,又能通过文本指令灵活调控生成内容。

1. 研究动机

现有方法的局限

目前主流的 运动迁移(motion transfer)工作大多基于 U‑Net 架构 ,利用空间、时间分离的建模方式(先 2D 空间卷积 / 注意力,再 1D 时间卷积 / 注意力)解偶运动信息。这种分离设计有利于抽取运动,但 生成质量受限于 U‑Net,并且现有方法难以应用到 Video Diffusion Transformers(Video DiT) 上。

Video DiT 的难点

Video DiT 通过 3D 注意力 同时建模外观与运动,在开源社区有state-of-the-art(sota)的视频生成性能;可一旦直接微调部分参数做运动迁移,由于外观与运动被深度绑定,很难准确迁移运动的同时灵活编辑前景和背景。

现有Benchmark和Metric的局限性

现有运动迁移任务的Benchmark规模较小,难度也不够全面。并且Metric只关注轨迹局部的速度方向,没有关注全局的轨迹形状。

2. 关键的发现

时序上的局部特征就可以学到运动

如图1所示,在MM-DiT的3D Attention中,每个位置的特征主要关注同一空间,局部时间的局部特征,因此通过时序上的局部建模即可学习到特征沿时序的变化,也就是运动。

图1: 对3D Attention Map的可视化,我们发现在3D Attention中,特定帧上的image patch主要关注相邻帧同一空间位置的image patch(用红色图标标注),对其他空间和时间位置的image patch关注度相对较低(用蓝色图标标注)
图1: 对3D Attention Map的可视化,我们发现在3D Attention中,特定帧上的image patch主要关注相邻帧同一空间位置的image patch(用红色图标标注),对其他空间和时间位置的image patch关注度相对较低(用蓝色图标标注)

沿着时序做平滑会更容易解偶出运动

如图2所示,在对DiT feature的可视化中,我们发现前景特征延时序一致,而背景特征延时序不一致,且在某些帧会与前景特征难以区分。为了学习前景运动时避免“记住”背景的外观,我们可以通过延时序做平滑的方式,帮助模型更好的区分前景和背景特征。

图2: 通过对DiT中间层特征(命名为DiT feature)的PCA可视化,我们发现前景特征沿着时序有较强的一致性,而背景特征沿着时序不一致。并且在某些帧上(例子中的第三帧)前景特征和背景特征可能出现难以区分的情况
图2: 通过对DiT中间层特征(命名为DiT feature)的PCA可视化,我们发现前景特征沿着时序有较强的一致性,而背景特征沿着时序不一致。并且在某些帧上(例子中的第三帧)前景特征和背景特征可能出现难以区分的情况

幸运的是,以上两点可以通过相同的设计来完成——沿着时序的卷积操作

3. 方法

1.解偶和追踪同时完成 — 共享时序卷积

动机:

通过上述分析,我们采用沿着时序的卷积算子,解耦出前景运动的同时学习运动。具体而言,如图3所示,我们在3D Full Attention外“并连”了down-and-up结构的卷积模块,节约了计算与显存的开销。这里的Conv1D仅作用于时序维度,并且在空间维度上是共享的。这样的设计可以缓解模型记住视频内容外观的问题,使得DeT可以灵活的通过文本控制生成内容的外观。

时序卷积的双重作用:

  • 平滑相邻帧特征,解耦出前景的运动,帮助模型更好的学习前景运动

  • 显式编码运动,卷积核权重在训练过程中可以学习到视频中的运动模式

图3: 共享时序卷积的平滑原理与模型结构图:在(a)中,我们展示了共享时序卷积对解耦前景运动的提升原理:通过对背景特征沿着时序的平滑,我们可以在前背景特征难以区分的帧上更容易区分,从而避免模型记住背景的外观;在(b)中我们展示了共享时序卷积的实现,通过简单但有效的方法,我们可以在学习运动的同时避免过拟合到前背景的外观。

2.增强前景运动一致性 — 稠密追踪损失

动机:

受到前景特征沿着时序一致性的鼓舞,我们在训练过程中显示加入对前景特征一致性的监督,让共享时序卷积更准确地学习到前景的运动。

稠密追踪损失:

具体而言,我们采用GroundedSAM先得到前景的掩码,通过采样得到关键点集合;然后借助 CoTracker3 追踪前景的关键点,最小化跨帧特征距离,增强生成视频的运动轨迹在时序上的平滑一致。计算的方式如图4所示,考虑到复杂运动可能存在遮挡的问题,我们引入可见掩码 ,屏蔽了不可见轨迹上的损失计算。

图4: 稠密追踪损失的计算示意图,我们沿着轨迹对齐跨帧前景特征,并采用可见掩码屏蔽轨迹的不可见部分。
图4: 稠密追踪损失的计算示意图,我们沿着轨迹对齐跨帧前景特征,并采用可见掩码屏蔽轨迹的不可见部分。

4. 更全面的测试基准—MTBench

动机:

现有的运动迁移方法评测通常在小规模基准上进行,且未充分考虑运动难度的差异,这限制了评估的全面性和可靠性。为了更准确地衡量运动迁移方法的性能,我们提出了MTBench——一个规模更大、涵盖不同运动难度的标准化测试基准。

MTBench:

我们提出了一个更大且更通用的运动迁移任务测试基准 MTBench。考虑到中心化前景和较大动态程度的需求,MTBench 来源于两个公开数据集DAVIS和YouTubeVOS。我们精选了 100 个高质量视频,并利用多模态大模型Qwen2.5-VL、大语言模型Qwen2.5 以及CoTracker3 对视频进行标注。对于每个源视频,我们生成了五个评测提示并标注前景轨迹——轨迹的初始点通过距离加权采样从掩码中选取,这种方式使得孤立稀疏点更容易被采样,从而保证在手脚等狭窄但重要的区域内也能进行采样。随后,我们应用自动聚类算法对轨迹进行分组,并根据聚类数将运动难度划分为三个等级,图5给出了运动的分布以及三个难度的示例。此外,我们还提出了一种混合运动保真度指标。与仅依赖轨迹局部速度相似性的方法不同,我们引入 Fréchet 距离来衡量轨迹全局形状的一致性。结合 MTBench 与混合运动保真度指标,我们的工作为运动迁移方法提供了更全面的评测手段。

图5: MTBench的统计信息,图(a)是MTBench的测评提示中包含的运动及其数量,图(b)展示了我们划分运动难以的三个例子,聚类中心1-3为简单,4-6为中等,7+为困难。帆船的平移通过自动聚类得到2个聚类中心,被划分为简单;走路有5个聚类中心,被划分为中等;街舞有11个聚类中心,被划分为困难。
图5: MTBench的统计信息,图(a)是MTBench的测评提示中包含的运动及其数量,图(b)展示了我们划分运动难以的三个例子,聚类中心1-3为简单,4-6为中等,7+为困难。帆船的平移通过自动聚类得到2个聚类中心,被划分为简单;走路有5个聚类中心,被划分为中等;街舞有11个聚类中心,被划分为困难。

5. 实验结果

1.定量结果:

如图6所示,我们的方法 DeT 基于 HunyuanVideo,在运动保真度(Motion Fidelity)上取得了最高分,并在编辑保真度(Edit Fidelity)与运动保真度之间实现了最均衡的权衡。将 MotionInversion、DreamBooth 和 DMT 适配至 Video DiT 模型后,在所有指标上的表现均明显落后,凸显出我们工作的贡献与价值。

图6: 在MTBench上的定量结果比较
图6: 在MTBench上的定量结果比较

2.定性结果:

如下视频所示,我们的方法能够在不对源视频外观过拟合的情况下,准确地迁移运动,并支持对前景和背景的灵活文本控制。此外,它还能实现跨类别的运动迁移,例如从人到熊猫,或从火烈鸟到鹿。

3.定性结果比较:

如下视频所示,Motiondirector和MotionClone 在运动保真度上表现不佳。SMA 难以保证运动在时序上的一致性,出现时序上的跳动。我们的方法DeT不但准确的迁移了运动,保证了时序上的一致性,而且能够灵活地通过文本控制生成的内容,达到了高质量的运动迁移效果。

4.消融实验:

  • a.共享时序卷积

模块设计: 除了使用共享时间卷积核外,我们还考虑了通过 LoRA、Conv3D 和局部注意力的替代方案。图7中的表格3显示,我们的方法在编辑保真度和运动保真度指标上均取得了最佳性能。

表1:我们比较了用于学习运动的不同模块,发现沿着时序的一维卷积在所有指标上都达到了最优的性能
表1:我们比较了用于学习运动的不同模块,发现沿着时序的一维卷积在所有指标上都达到了最优的性能
图7: 不同模块学习运动的对比图,可以发现只有时序卷积可以同时做到运动准确性和可编辑性
图7: 不同模块学习运动的对比图,可以发现只有时序卷积可以同时做到运动准确性和可编辑性

共享时序卷积的超参数: 此外,我们分别对丢弃层比例、卷积核大小和中间维度进行了消融实验。图7中表格4的定量结果表明,卷积核大小为 3、且中间维度设置为 128 时性能最佳。

表2:左侧为卷积核的大小,右侧为down-and-up结构中间维度的消融实验,综合考虑我们选择卷积核大小为3,中间维度为128
表2:左侧为卷积核的大小,右侧为down-and-up结构中间维度的消融实验,综合考虑我们选择卷积核大小为3,中间维度为128
  • b.稠密追踪损失

稠密追踪损失的权重: 我们对稠密点跟踪损失的权重进行了消融实验,发现当损失权重取 0.1 时性能最佳。训练过程中 DiT 特征的余弦相似度表明,稠密点跟踪损失有助于实现精确的前景跟踪。

表3:稠密追踪损失权重的消融实验,我们发现设置为1e-1达到了最优的性能。
表3:稠密追踪损失权重的消融实验,我们发现设置为1e-1达到了最优的性能。
图8:我们计算了跨帧DiT特征的余弦相似度,稠密追踪损失可以让前景特征在时序上更加一致,从而增强运动一致性
图8:我们计算了跨帧DiT特征的余弦相似度,稠密追踪损失可以让前景特征在时序上更加一致,从而增强运动一致性

6. 未来工作

a.模型效率问题:

尽管DeT采用了轻量化设计,但由于Video DiT本身参数量大、计算复杂度高,单个运动迁移任务在单张A100 GPU上仍需约1小时完成,这严重制约了DeT的实际应用效率。

b.模型分层特性利用不足:

目前DeT的分析均基于Video DiT各层特征的平均结果,而实际上不同网络层可能具有不同的建模特性。未来可探索分层特征解耦机制,设计更精细的模块来分别学习动作迁移与外观解耦。

c.极端困难案例的挑战:

MTBench中包含部分高难度样本(如街舞动作,其运动轨迹聚类中心数极高),DeT在此类案例中仍存在明显局限——背景外观易出现"过拟合"现象,导致迁移效果下降,这表明模型对复杂运动的建模能力仍需进一步提升。

一个男人在跳舞

一个宇航员在火星跳街舞

更多的结果请看项目主页:https://shi-qingyu.github.io/DeT.github.io/

代码 与 MTBench 已开放:https://github.com/shi-qingyu/DeT


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k