

字节&NUS开源TranSVAE：基于生成模型的视频无监督域适应框架

极市平台

2022-08-22

↑ 点击蓝字关注极市平台

作者丨东咚咚咚

编辑丨极市平台

极市导读

首个基于域解耦(domain disentanglement)的视频无监督域适应框架，构建了用于解耦静态域相关信息(domain-related info)和动态语义相关信息(semantic-related info)的跨域视频生成模型，并提出了四种约束项对该模型加以限制。在主流的视频域适应基线UCF-HMDB，Jester，Epic-Kitchens等上取得了SoTA的分数。 >>【极市平台 x VALSE2022 CV开发者之夜】非正式交流晚宴向您发出邀请！🌟🌟🌟来现场朋友请戳此报名：https://sourl.cn/eiRQ84

论文标题：Unsupervised Video Domain Adaptation: A Disentanglement Perspective

机构：字节跳动AI Lab，新加坡国立大学

论文链接：https://arxiv.org/abs/2208.07365

项目主页：https://ldkong.com/TranSVAE

开源代码：https://github.com/ldkong1205/TranSVAE

对Sprites中的"Human"和"Alien"角色进行域解耦与迁移的示意

01 背景

视频数据中的无监督域适应(unsupervised domain adaptation, UDA)问题有着理想的实际应用前景。在过去的数年里，种类丰富的UDA方法被提出并应用在了诸如图像识别、物体检测和图像分割等的视觉任务中。然而，大部分的UDA算法仅仅局限在图像层面，而更具有挑战性的视频UDA任务仍然有待探索。

与图像UDA任务相比，视频UDA中的源域(source domain)和目标域(target domain)之间还存在着时空(temporal)层面的差异。正是由于这个原因，现有的图像UDA方法难以在视频任务上取得优异的性能。举例来说，在基于视频的跨域动作识别任务中，域差异(domain gap)不仅仅由不同人在不同场景中的动作所呈现，还由出现在不同时间点(timestamp)或持续不同时长(time length)的动作所呈现。

Epic-Kitchens数据集中的动作识别场景

近期，一些针对视频UDA的方法被相继提出。这些方法的大致思路是追求源域和目标域在时空层面的对齐(alignment)。这些方法的出发点包括：对抗学习(adversarial learning)、对比学习(contrastive learning)、注意力机制(attention)等等。虽然上述方法推动了视频UDA领域的发展，但该方向依然留有进步的空间。

02 动机

跨域的视频数据有着很高的复杂度，包括了域相关信息(domain-related info)、语义信息(semantic-related info)、时空信息(temporal-related info)等在内的多种信息。如下图左所示，现有工作通常进行特征层面的对齐，并将上述各类信息混合在一起，因此可能无法保证源域和目标域之间的充分对齐。

传统的”压缩“视角与”解耦“视角的对比

这些方法通过专门设计的约束对域相关信息进行高度压缩，以使得源域和目标域的受约束后的新表征(representation)之间无法相互区分；而时空和语义相关信息等也被充分压缩，以便使得这些新表征在分类任务上有着良好的预测结果。然而，由于多种信息混合在一起，在压缩过程中不可避免地会出现信息混淆(mix)和丢失(loss)，这可能会极大地危及最终的自适应性能。

方法

上述问题促使我们从解耦(disentanglement)的角度来处理视频UDA任务。我们的目标是在域适应过程中将域信息与其他信息分离，从而尽可能得消除源域和目标域之间的差异对预测任务的影响。

为了实现域解耦，我们首先考虑跨域视频的生成(generation)过程。我们假设一个视频序列是从两组潜在因子(latent factor)中生成出来的：一组因子由一系列随机变量组成，这些随机变量随时间而变化并编码与预测任务相关的语义信息；另一组因子则是静态的，将域相关信息引入到生成的视频中。

所提出的用于域解耦与迁移的(a)生成模型与(b)推理模型

上图展示了跨域视频的生成过程。其中，蓝色和红色节点(node)分别代表在个时间点上观察到的源域和目标域视频和。静态变量和遵循联合分布(joint distribution)，并且是特定于域本身的(domain-specific)。将二者中的任意一个与每个时间点的动态变量相结合，我们就可以构造出一个域上的一帧数据。注意，动态变量的序列在域之间是共享的并且是域不变的(domain-invariant)，它们也被用于最终的预测任务。

从上文叙述的生成模型的角度出发，我们提出了用于视频UDA任务的新框架：TranSVAE。该序列VAE结构被应用于模拟跨域视频的生成过程，其中包含的各个组件被用来确保域解耦始终服务于域适应这个目的。

TranSVAE框架示意图

首先，我们通过最小化两组潜在因子间的相互依赖(mutual dependence)来实现良好解耦，鼓励这两个因子集中的信息相互排斥，从而实现域相关信息和其他信息的解耦。然后我们考虑约束每个潜在因子集。对于预期为”域不变“的动态序列，我们通过使用在帧层级和视频层级的对抗学习来对齐它们。与此同时，我们对从源域数据中提取的添加了特定于任务本身的监督学习，以利用该域中的标注信息。对于而言，我们希望它是静态的和能够用于表征”特定域的“。因此，对比三元组损失(contrastive triplet loss)被用于对进行约束。

总得来说，TranSVAE框架的目标是对静态的域相关信息和动态的语义相关信息进行解耦，从而实现源域和目标域在时空层面的对齐。其中包括的四个组件均按照这种思路对模型的学习加以约束，它们之间的有效促进是使得源域和目标域成功对齐的关键。更多的技术细节请参阅TranSVAE论文。