大数跨境
0
0

CVPR2023|微调的 CLIP 模型是高效的视频学习者!

CVPR2023|微调的 CLIP 模型是高效的视频学习者! 极市平台
2023-04-28
2
↑ 点击蓝字 关注极市平台
作者丨GlobalTrack
编辑丨极市平台

极市导读

 

本文设计了一个简单但强大的baseline,ViFi CLIP,用于将基于图像CLIP方法适应视频特定任务。实验中表明CLIP简单微调足以学习视频特定的归纳偏差,从而在下游任务中获得印象深刻的性能。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/pdf/2212.03640.pdf

源码链接:https://github.com/muzairkhattak/vifi-clip

简介

预训练视觉-语言模型(CLIP和ALIGH)已经在很多视觉下游任务上显示了强大的零成本性能,任务包括分类检测分割。模型使用从互联网获得的数以百万图像-文本对,提供了强大泛化和迁移能力的表示。然而由于以下原因如此大规模预训练对于视频是费力的:1)对齐视频文本数据可能性有限,准备此类数据成本是巨大的,而图像-文本对互联网来源是现成的。2)视频本质是复杂的,有很大的计算成本,而不同外观线索可以通过图像文本对学习,而计算成本要低得多。因此在不忘记一般多模态学习表示学习情况下,设计出有效地将预训练好的图像-语言模型应用于基于视频任务的方法是至关重要的。

目前基于视频方法采用CLIP表示并使用额外的可学习组件进行时空建模。这些组件包括用于跨帧交流的自注意力层,文本或视觉提示或专用视频解码器模块。这些模块中保持CLIP backbone冻结或调整CLIP解码器同时学习。然而这些设计需要在已开发的架构模块中建模特定于模式的归纳偏差,并需要仔细的设计以使CLIP适应于视频。另外当使CLIP适应下游视频任务时,这些方法通常不会在所有设置中都是赢家。例如zero-shot适应方法在监督设置中表现较低,而监督模型在zero-shot泛化任务中得分较低。

现有将CLIP编码器的微调作为baseline另一个问题是破坏了CLIP完全微调的潜力。然而注意到,为在视频上实现更好的视觉语言对齐而进行的完全微调提高了事件线索与语言线索之间协同作用。

虽然简单的CLIP微调与更复杂的方法相比具有竞争力,但它并不总是可行的,尤其是在低数据状态下。基于简单的微调可以有效地使CLIP适应视频的发现,我们提出了一种两阶段的“桥接和提示”方法,用于将CLIP适应低数据状态,该方法首先对视频上的vanilla CLIP进行微调,以弥合模态差距,然后是视觉语言提示学习方法,使调整后的CLIP保持冻结。

本文主要创新:

  1. 本文设计了一个简单但强大的baseline,ViFi CLIP,用于将基于图像CLIP方法适应视频特定任务。实验中表明CLIP简单微调足以学习视频特定的归纳偏差,从而在下游任务中获得印象深刻的性能。
  2. 本文方法在四个不同实验设定(零样本、基类-新类泛化、少样本和全监督任务)下进行实验。与最新方法相比,本文方法有更好或相当的性能。
  3. 本文方法展示了我们提出的“bridge and prompt”方法的有效性,该方法首先通过微调来弥合模态差距,然后在低数据状态下的CLIP模型的视觉和语言分支中进行prompt学习。

本文方法

问题设定

这里通过改变监督级别给出视频识别的四个问题设定。

零样本设定 模型在一个源数据集上训练并直接在下游跨数据集上迁移。源域数据集 包含属于源域类别 的样本,模型在目标域数据集 的类别 上评估,且满足

基类-新类泛化 为了测试各种方法在新类上的泛化能力,这里介绍对于视频动作识别的base-to-novel泛化设定。数据集 标签 划分为基类 和新类 ,且满足 。在基类别上训练的模型在基类和新类上进行评估。提出的基和新类将总共类别划分未两个均等的部分。最平凡的类别分组为基类。

少样本设定 使用少样本设定测试模型在有限监督条件下学习能力。对于类别 数据集 ,一般的K样本数据创建,K样本从每一个类别中随机采样用于训练。这里使用 验证集用于评估

全监督设定 监督算法的传统设定,对于类别 数据集 ,在全部训练样本上训练,在相应测试集上评估。

视频微调CLIP

由于在视频-字幕对上训练视觉语言(VL)模型成本昂贵,因此大规模预训练视频VL模型可用性有效。先前方法探索的一个替代方法是适应大规模预训练的基于图像VL模型(如CLIP),用于视频下游任务。考虑到模态差异,先前方法探索了使用各种专门的基于注意力组件,这些逐渐可以跨帧和模块传输通信,以整合来自多个帧信息。相反,本文探索了一个称为ViFi-CLIP(视频微调CLIP)的简单baseline能力,用于将CLIP在视频域中适应。

基于视频中额外时间信息,重要问题是如何将这些信息融入基于图像的CLIP模型。本文探索了CLIP完全微调能力,以弥补视频域模态差异。本文ViFi-CLIP微调图像和文本编码器。

给定一个带有 帧的视频样本 和对应文本标签 ,CLIP图像编码器将 帧对立编码为一批图像,并产生帧级嵌入 。帧级嵌入平均池化获得视频集表示 。本文将该操作称为时间池(Temporal Pooling),因为该操作通过多个帧的聚合隐式地合并了时间学习。

CLIP文本编码器对类 进行编码,并包装在一个提示模板中(如a photo of <类别>)以生成文本嵌入 。对于一批视频,余弦相似度 在所有视频级嵌入 和相应文本嵌入 最大限度地实现优化,通过具有温度参数 的交叉熵目标对CLIP模型进行微调。

实验

泛化能力

当将CLIP是适应于高泛化能力的视频任务,必须满足两个关键因素:1. 通过适应基于图像CLIP来弥补模态差距,2. 必须在不影响内置泛化下进行模态适应。

零样本设定 本文研究了简单baseline ViFi-CLIP在零样本设置下交叉数据集泛化能力。在一个大型的视频动作识别数据集Kinetics-400训练该模型,并在不同数据集HMDB-51、UCR-101和Kinetics-600。比较的算法包括专门为零样本动作识别设计的但模态方法和将基于图像多模态VL模型用于视频动作识别的模型。表1给出了相关实验结果比较。与但模态方法相比,普通CLIP直接零样本评价具有令人印象深刻的泛化性能。此外将CLIP与视频特定组件结合,有助于提高在大多数场景中泛化能力,这表明弥补模态差距的重要性。然而简单地微调方法显示出更好地能力弥补域差异,而不干扰在CLIP预训练阶段学习到的泛化。这里也给出了微调图像和文本编码器的比较(CLIP image-FT和CLIP text-FT),并与完全微调的CLIP(ViFi-CLIP)比较,后者由于视频任务上的视觉和文本表示更好地对齐,提供了更强的泛化。ViFi-CLIP在HMDB-51、UCF-101和K-600数据集上分贝获得了+6.7%、+4.8%和+4.5%提升。

基础类-新类泛化设定

表2给出了相关实验结果。与使用额外组件建模视频特定感应偏差的XCLIP和ActionCLIP方法相比,以最小设计修改的ViFi-CLIP提供了最好的基本精度,并显示了新精度的显著提高。

直接适应视频任务

本文探索了一种简单的微调方法,在不同实验设置下弥补有监督视频动作识别任务领域差距:1. 少样本学习,2. 全监督设定。

少样本设定

表3给出了相关实验结果。可以看出本文方法ViFi-CLIP随着样本数增加都提升了相应性能。在三个数据集HMDB-51,UCF-101和SSv2和所有样本数设定(K=2,4,6,8)上,本文方法都获得了更好地性能。另外在极端有限样本数条件下获得了对过拟合问题更强的鲁棒性。例如在UCF-101和HMDB-51数据集上比最好方法提升+9.3%和+4.2%。

全监督设定

表4给出了相关实验结果。与使用额外精心设计的可学习组件用于进行特定于视频的时间建模方法相比,完全微调CLIP的简单方法提供了具有竞争力的性能。此外,对图像编码器和文本编码器的微调表明了对全CLIP模型进行微调对解决域差异的有效性。

弥补模态差异有效性实验

在展示了ViFi-CLIP将CLIP用于视频动作识别有效性后,本文探索了这种方法如何编码视频特定信息,从而弥补模态差异。这里在组合帧级别信息混合机制上进行消融实验。在提出的baselin中,本文采用嵌入级融合。有图像编码器对每个帧进行编码,然后将得到的图像嵌入融合在一起,获得视频层视觉表示。这里考虑两种替代的融合机制:1. 决策级融合:使用来自各帧图像嵌入来分别计算相应文本嵌入相似性。然后取帧级logit平均值,以获得视频级logit,2. 图像级融合:将视频帧视为单个图像,计算每一帧损失,从而去除所有时间信息。

表5给出了这两种融合策略与本文算法在Kinetics-400 tiny,few shot SSv2,HMDB-51和UCF-101数据集上实验结果。可以看出融合帧级嵌入有助于模型学习不同帧之间事件关系,从而隐式建立帧间通信。

微调有效性

作为一种精度方面与其他方法相比更有竞争力的替代方法,这里进一步研究了ViFi-CLIP与其他方法相比的计算复杂度。表6给出了相关实验结果。可以看出与其他适应CLIP到视频的方法相比,ViFi-CLIP提供了71.1幅图像/秒的高吞吐量(TP)。这主要由于简单的设计,避免了使用任何额外视频特定组件。同时也有更低的FLOPs和更少的训练参数量。

公众号后台回复“CVPR2023”获取最新论文分类整理资源
极市干货
极视角动态推进智能矿山建设,极视角「皮带传输系列算法」保障皮带安全稳定运行!
CVPR2023CVPR 2023|21 篇数据集工作汇总(附打包下载链接)
数据集:垃圾分类、水下垃圾/口罩垃圾/烟头垃圾检测等相关开源数据集汇总异常检测开源数据集汇总语义分割方向开源数据集资源汇总
点击阅读原文进入CV社区
收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k