

CVPR 2023｜基于多层多尺度重建任务的MIM改进算法

极市平台

2023-03-22

↑ 点击蓝字关注极市平台

作者丨GlobalTrack

编辑丨极市平台

极市导读

MIM 在自监督表示学习方面取得了显着的成功。但这些模型有巨大的计算负担和慢训练过程，一般需要几千GPU小时。如何加速MIM方法是重要的问题。本文提出一种局部多尺度重建任务，下层和高层分别重建细尺度和粗尺寸的监督。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：https://arxiv.org/pdf/2303.05251.pdf

源码链接：https://github.com/Haoqing-Wang/LocalMIM

简介

掩蔽图像建模（Masked Image Modeling，MIM）在自监督视觉表示学习上取得了巨大成功。MIM通过掩蔽输入部分部分，根据未掩蔽区域预测信号，信号包括归一化像素、离散令牌、HOG特征、深度特征或频率。

尽管在各种下游任务卓越性能，但这些模型有巨大的计算负担和慢训练过程。一般需要几千GPU小时。如何加速MIM方法是重要的问题。

MIM中，上层学习取决于预训练期间下层学习，因为上层特征从下层计算。除此之外，上层在微调期间能快速适应到下游任务而下层任务变化较慢需要充分学习。甚至仅微调几个上层并冻结其他层也能获得相似性能。因此编码器的下层在MIM任务中起着关键作用。然而所有的MIM模型尽在编码器顶层执行重建任务，而较低的层没有明确指导。因此它们的补丁之间交互仅用于计算下一层的激活。考虑到重建任务需要非平凡的补丁间交互推理目标信号，本文方法将其同时应用于上层和下层，以明确指导它们，从而加速整个学习过程。小解码器对于每一个局部重建任务是足够的，该策略不会显著增加计算负担。

如何合适地在多个局部层执行重建任务是一个非平凡地问题。一般的，下层网络利用低级别信息，上层网络利用高级别信息。对于局部重建任务使用相同尺寸地监督信号是不合适的。这里的尺寸是由划分的输入令牌计算的监督信号的空间尺寸。细尺寸（fine-scale）和粗尺寸（coasrse-scale）的信号分别包含输入的低级别和高级别信息。这些从输入得到的多尺度监督在已有的MIM模型中广泛被忽略。

本文提出一种局部多尺度重建任务，下层和高层分别重建细尺度和粗尺寸的监督。

本文方法

MIM方法的分析

对于预训练，下层特征由下层计算得到，良好训练的下层能向上椽笔语义知识，并促使它们学习。微调阶段，下层一般快速适应特定的下游任务，然而上层改变较慢，需要再预训练阶段充足训练。

经过分块和线性投影后，初始补丁嵌入失去了语义关系。视觉Transformer中的子注意力机制负责通过补丁间交互学习这些关系，并构建比像素空间更好的表示空间。由于自监督机制有依赖于补丁数量的二次计算复杂度，很难学习补丁间相互作用，特别是对于金字塔结构的较低层，小补丁大小导致巨大的。在全局重建损失下，下层的补丁间交互没有明确引导，计算新激活层的简单任务对于引导它是不足够的。结果是对于下层的学习补丁间关系任务是困难的。

重建任务需要再补丁之间进行整体推理，以预测遮盖信号，从而获得对输入的语义理解。由于这项具有挑战性的任务促使了非平凡的补丁间交互，因此本文算啊将其应用于多个本地层，包括上层和下层，以明确地指导训练。

局部多尺度重建

在MIM任务中，重建任务的监督信号直接由输入计算得到。具体地，将图像划分为无重叠的区域。帮使用一些特征描述器抽取监督信号。为了学习泛化的表示，设计了许多特征描述器，包括像素一致化，HOG，预训练或动量教师模型。定义监督的尺寸为。对于给定输入，来自精细划分的输入区域的精细尺度监督通常包含输入的低级语义信息，如角、边活纹理。粗糙尺度的监督捕获输入的高级别语义信息，例如部分或整体输入的形状。直观地，由于包含更丰富的语义信息，多尺度监督比一般的单尺度方法能更好地引导表示学习。本文中，主要考虑容易获得不需要额外预训练负担和昂贵教师网络强项推理的特征描述符，如像素归一化和HOG。

观察到，下层和上层期望分别学习低级和高级信息，因此即使对于所有层具有相同大小特征图的柱状架构，也不适合使用单尺度指导多个局部层。为此，本文算法使底层重建精细尺度监督，而使高层重建粗糙尺度监督。对于已经通过设置空间大小将多尺度属性硬编码到特征的金字塔结构，本文监督使用与所选层上特征图相同尺寸的监督实现兼容性。

解码器包括三个部分：Transformer块用于推断，用于重缩放的反卷积/池化和用于预测的多层感知器。基于第层的编码可视补丁和掩码令牌，解码器的输出预测与特征图相同尺寸。当监督与特征图有不同尺度时，解码的预测不能匹配监督。此时使用反卷积/池化运算重新缩放预测匹配监督。为了避免过多的计算开销，本文算法使用包含一个小嵌入维度的Transfomer块的小解码器

训练损失函数是选择的层的重建损失函数的加权和：

是选择的层。是每个局部损失系数。由初始掩码下采样/上采样得到。

实验

表1给出了各种MIM方法在ImageNet-1K微调后的精度比较。在ViT-B模型中，本文的LocalMIM取得了最好的结果，且比MAE和MaskFeat分别加速和。在Swin-B模型中，LocalMIM与和GreenMIM相比分别获得了和加速。在TOP-1微调后精度指标上，LocalMIM与ViT-B和Swin-B分别获得了84.0%和84.1%。