大数跨境
0
0

字节&NUS开源TranSVAE:基于生成模型的视频无监督域适应框架

字节&NUS开源TranSVAE:基于生成模型的视频无监督域适应框架 极市平台
2022-08-22
0
↑ 点击蓝字 关注极市平台

作者丨东咚咚咚
编辑丨极市平台

极市导读

 

首个基于域解耦(domain disentanglement)的视频无监督域适应框架,构建了用于解耦静态域相关信息(domain-related info)和动态语义相关信息(semantic-related info)的跨域视频生成模型,并提出了四种约束项对该模型加以限制。在主流的视频域适应基线UCF-HMDB,Jester,Epic-Kitchens等上取得了SoTA的分数。 >>【极市平台 x VALSE2022 CV开发者之夜】非正式交流晚宴向您发出邀请!🌟🌟🌟来现场朋友请戳此报名:https://sourl.cn/eiRQ84

论文标题:Unsupervised Video Domain Adaptation: A Disentanglement Perspective

机构:字节跳动AI Lab,新加坡国立大学

论文链接:https://arxiv.org/abs/2208.07365

项目主页:https://ldkong.com/TranSVAE

开源代码:https://github.com/ldkong1205/TranSVAE


对Sprites中的"Human"和"Alien"角色进行域解耦与迁移的示意

01 背景

视频数据中的无监督域适应(unsupervised domain adaptation, UDA)问题有着理想的实际应用前景。在过去的数年里,种类丰富的UDA方法被提出并应用在了诸如图像识别、物体检测和图像分割等的视觉任务中。然而,大部分的UDA算法仅仅局限在图像层面,而更具有挑战性的视频UDA任务仍然有待探索。

与图像UDA任务相比,视频UDA中的源域(source domain)和目标域(target domain)之间还存在着时空(temporal)层面的差异。正是由于这个原因,现有的图像UDA方法难以在视频任务上取得优异的性能。举例来说,在基于视频的跨域动作识别任务中,域差异(domain gap)不仅仅由不同人在不同场景中的动作所呈现,还由出现在不同时间点(timestamp)或持续不同时长(time length)的动作所呈现。

Epic-Kitchens数据集中的动作识别场景

近期,一些针对视频UDA的方法被相继提出。这些方法的大致思路是追求源域和目标域在时空层面的对齐(alignment)。这些方法的出发点包括:对抗学习(adversarial learning)、对比学习(contrastive learning)、注意力机制(attention)等等。虽然上述方法推动了视频UDA领域的发展,但该方向依然留有进步的空间。

02 动机

跨域的视频数据有着很高的复杂度,包括了域相关信息(domain-related info)、语义信息(semantic-related info)、时空信息(temporal-related info)等在内的多种信息。如下图左所示,现有工作通常进行特征层面的对齐,并将上述各类信息混合在一起,因此可能无法保证源域和目标域之间的充分对齐。

传统的”压缩“视角与”解耦“视角的对比

这些方法通过专门设计的约束对域相关信息进行高度压缩,以使得源域和目标域的受约束后的新表征(representation)之间无法相互区分;而时空和语义相关信息等也被充分压缩,以便使得这些新表征在分类任务上有着良好的预测结果。然而,由于多种信息混合在一起,在压缩过程中不可避免地会出现信息混淆(mix)和丢失(loss),这可能会极大地危及最终的自适应性能。

方法

上述问题促使我们从解耦(disentanglement)的角度来处理视频UDA任务。我们的目标是在域适应过程中将域信息与其他信息分离,从而尽可能得消除源域和目标域之间的差异对预测任务的影响。

为了实现域解耦,我们首先考虑跨域视频的生成(generation)过程。我们假设一个视频序列是从两组潜在因子(latent factor)中生成出来的:一组因子由一系列随机变量组成,这些随机变量随时间而变化并编码与预测任务相关的语义信息;另一组因子则是静态的,将域相关信息引入到生成的视频中。

所提出的用于域解耦与迁移的(a)生成模型与(b)推理模型

上图展示了跨域视频的生成过程。其中,蓝色和红色节点(node)分别代表在 个时间点上观察到的源域和目标域视频和。静态变量和遵循联合分布(joint distribution),并且是特定于域本身的(domain-specific)。将二者中的任意一个与每个时间点的动态变量相结合,我们就可以构造出一个域上的一帧数据。注意,动态变量的序列在域之间是共享的并且是域不变的(domain-invariant),它们也被用于最终的预测任务。

从上文叙述的生成模型的角度出发,我们提出了用于视频UDA任务的新框架:TranSVAE。该序列VAE结构被应用于模拟跨域视频的生成过程,其中包含的各个组件被用来确保域解耦始终服务于域适应这个目的。

TranSVAE框架示意图

首先,我们通过最小化两组潜在因子间的相互依赖(mutual dependence)来实现良好解耦,鼓励这两个因子集中的信息相互排斥,从而实现域相关信息和其他信息的解耦。然后我们考虑约束每个潜在因子集。对于预期为”域不变“的动态序列,我们通过使用在帧层级和视频层级的对抗学习来对齐它们。与此同时,我们对从源域数据中提取的添加了特定于任务本身的监督学习,以利用该域中的标注信息。对于而言,我们希望它是静态的和能够用于表征”特定域的“。因此,对比三元组损失(contrastive triplet loss)被用于对进行约束。

总得来说,TranSVAE框架的目标是对静态的域相关信息和动态的语义相关信息进行解耦,从而实现源域和目标域在时空层面的对齐。其中包括的四个组件均按照这种思路对模型的学习加以约束,它们之间的有效促进是使得源域和目标域成功对齐的关键。更多的技术细节请参阅TranSVAE论文。

03 实验结果

TranSVAE的性能在主流的视频UDA基线上进行了广泛的验证,这些基线包括:UCF-HMDB,Jester,和Epic-Kitchens。我们也通过对Sprites数据集中的"Huamn"和"Alien"角色进行动作迁移,进一步验证了域解耦的有效性。

对比实验

UCF-HMDB基线上的对比实验: TranSVAE取得了优于同期SoTA方法的性能

Jester和Epic-Kitchens基线上的对比实验: TranSVAE在各个任务上均大幅领先于同期SoTA方法

与近期的多模态方法相比,TranSVAE仅使用单模态数据便取得了更优的域适应结果

消融实验

将UCF迁移到HMDB上的消融实验结果

将HMDB迁移到UCF上的消融实验结果

解耦实验

 在Sprites中的"Huamn"和"Alien"角色之间进行域解耦与迁移的示意

更多有关 TranSVAE 中的域解耦的实例,请参阅我们在 Hugging Face Spaces上制作的 live demo: https://huggingface.co/spaces/ldkong/TranSVAE

04 总结

这个工作提出一个名为TranSVAE的视频序列解耦框架,并被应用于视频数据的无监督域适应任务中。TranSVAE追求对静态的域相关信息和动态的语义相关信息进行解耦,从而更好的对齐源域和目标域。在主流的视频无监督域适应基线上,TranSVAE取得了优于同期各类单模态和多模态SoTA方法的成绩。

公众号后台回复“极市直播”获取极市直播第100期(视频实例分割新SOTA:SeqFormer&IDOL)PPT下载~

△点击卡片关注极市平台,获取最新CV干货


极市干货
算法竞赛:1000W奖池,AI算法等你来战!粤港澳大湾区(黄埔)国际算法算例大赛正式开赛!
技术综述防止模型过拟合的方法汇总浅析深度学习在图像处理中的应用趋势及常见技巧
极视角动态:极视角与惠普签署战略合作协议,共拓智慧工业市场极智产品融合|极视角罗韵解读「行业+AI」融合创新的实操手册



点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k