极市导读
MIM 在自监督表示学习方面取得了显着的成功。但这些模型有巨大的计算负担和慢训练过程,一般需要几千GPU小时。如何加速MIM方法是重要的问题。本文提出一种局部多尺度重建任务,下层和高层分别重建细尺度和粗尺寸的监督。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文链接:https://arxiv.org/pdf/2303.05251.pdf
源码链接:https://github.com/Haoqing-Wang/LocalMIM
简介
掩蔽图像建模(Masked Image Modeling,MIM)在自监督视觉表示学习上取得了巨大成功。MIM通过掩蔽输入部分部分,根据未掩蔽区域预测信号,信号包括归一化像素、离散令牌、HOG特征、深度特征或频率。
尽管在各种下游任务卓越性能,但这些模型有巨大的计算负担和慢训练过程。一般需要几千GPU小时。如何加速MIM方法是重要的问题。
MIM中,上层学习取决于预训练期间下层学习,因为上层特征从下层计算。除此之外,上层在微调期间能快速适应到下游任务而下层任务变化较慢需要充分学习。甚至仅微调几个上层并冻结其他层也能获得相似性能。因此编码器的下层在MIM任务中起着关键作用。然而所有的MIM模型尽在编码器顶层执行重建任务,而较低的层没有明确指导。因此它们的补丁之间交互仅用于计算下一层的激活。考虑到重建任务需要非平凡的补丁间交互推理目标信号,本文方法将其同时应用于上层和下层,以明确指导它们,从而加速整个学习过程。小解码器对于每一个局部重建任务是足够的,该策略不会显著增加计算负担。
如何合适地在多个局部层执行重建任务是一个非平凡地问题。一般的,下层网络利用低级别信息,上层网络利用高级别信息。对于局部重建任务使用相同尺寸地监督信号是不合适的。这里的尺寸是由划分的输入令牌计算的监督信号的空间尺寸。细尺寸(fine-scale)和粗尺寸(coasrse-scale)的信号分别包含输入的低级别和高级别信息。这些从输入得到的多尺度监督在已有的MIM模型中广泛被忽略。
本文提出一种局部多尺度重建任务,下层和高层分别重建细尺度和粗尺寸的监督。
本文方法
MIM方法的分析
对于预训练,下层特征由下层计算得到,良好训练的下层能向上椽笔语义知识,并促使它们学习。微调阶段,下层一般快速适应特定的下游任务,然而上层改变较慢,需要再预训练阶段充足训练。
经过分块和线性投影后,初始补丁嵌入失去了语义关系。视觉Transformer中的子注意力机制负责通过补丁间交互学习这些关系,并构建比像素空间更好的表示空间。由于自监督机制有依赖于补丁数量的二次计算复杂度,很难学习补丁间相互作用,特别是对于金字塔结构的较低层,小补丁大小 导致巨大的 。在全局重建损失下,下层的补丁间交互没有明确引导,计算新激活层的简单任务对于引导它是不足够的。结果是对于下层的学习补丁间关系任务是困难的。
重建任务需要再补丁之间进行整体推理,以预测遮盖信号,从而获得对输入的语义理解。由于这项具有挑战性的任务促使了非平凡的补丁间交互,因此本文算啊将其应用于多个本地层,包括上层和下层,以明确地指导训练。
局部多尺度重建
在MIM任务中,重建任务的监督信号直接由输入计算得到。具体地,将图像 划分为无重叠的区域。帮使用一些特征描述器 抽取监督信号 。为了学习泛化的表示,设计了许多特征描述器,包括像素一致化,HOG,预训练或动量教师模型。定义监督 的尺寸为 。对于给定输入,来自精细划分的输入区域的精细尺度监督通常包含输入的低级语义信息,如角、边活纹理。粗糙尺度的监督捕获输入的高级别语义信息,例如部分或整体输入的形状。直观地,由于包含更丰富的语义信息,多尺度监督比一般的单尺度方法能更好地引导表示学习。本文中,主要考虑容易获得不需要额外预训练负担和昂贵教师网络强项推理的特征描述符,如像素归一化和HOG。
观察到,下层和上层期望分别学习低级和高级信息,因此即使对于所有层具有相同大小特征图的柱状架构,也不适合使用单尺度指导多个局部层。为此,本文算法使底层重建精细尺度监督,而使高层重建粗糙尺度监督。对于已经通过设置空间大小将多尺度属性硬编码到特征的金字塔结构,本文监督使用与所选层上特征图相同尺寸的监督实现兼容性。
解码器包括三个部分:Transformer块用于推断,用于重缩放的反卷积/池化和用于预测的多层感知器。基于第 层的编码可视补丁 和掩码令牌 ,解码器的输出预测 与特征图 相同尺寸。当监督 与特征图 有不同尺度时,解码的预测不能匹配监督。此时使用反卷积/池化运算重新缩放预测 匹配监督 。为了避免过多的计算开销,本文算法使用包含一个小嵌入维度的Transfomer块的小解码器
训练损失函数是选择的层的重建损失函数的加权和:

是选择的层。 是每个局部损失系数。 由初始掩码下采样/上采样得到。
实验
表1给出了各种MIM方法在ImageNet-1K微调后的精度比较。在ViT-B模型中,本文的LocalMIM取得了最好的结果,且比MAE和MaskFeat分别加速 和 。在Swin-B模型中,LocalMIM与 和GreenMIM相比分别获得了 和 加速。在TOP-1微调后精度指标上,LocalMIM与ViT-B和Swin-B分别获得了84.0%和84.1%。
表2给出了在ADE20K语义分割数据集上实验结果。分割模型使用UpperNet。可以看出,在显著较少的计算负担下,本文LocalMIM超过SOTA方法0.7。另外LocalMIM与MaskFeat在ImageNet-1K有相同的TOP-1微调精度,但LocalMIM有更好的语义分割表现。
这里关注Mask RCNN与Swin-B在COCO数据集上性能。表3给出了相关实验结果。在没有标签条件下,LocalMIM超过有监督预训练2.2 和1.7 。与 和GreenMIM相比在检测分别获得了+0.3和+0.7性能提升,分割分别获得了+0.5和+0.8的提升。

