ICCV 2023｜Pixel-based MIM: 简单高效的多级特征融合自监督方法

极市平台

2023-08-12

↑ 点击蓝字关注极市平台

作者丨派派星

来源丨CVHub

编辑丨极市平台

极市导读

本文提出通过显式使用浅层的低级特征来辅助像素重建。这一设计被集成到 MAE 中，降低了 Pixel-based MIM 在建模能力上的“资源浪费”，同时改善了收敛性，并在各种下游任务上取得了不错的改进。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

导读

问题背景：Masked Image Modeling, MIM 是一种有效的自监督学习框架，但现有的基于像素的 MIM 方法倾向于过分关注高频细节。如此一来便会浪费模型的能力，不能充分捕获低频语义信息。

主要工作：基于这个问题，本文提出了一种新方法，通过显式使用浅层的低级特征来辅助像素重建。这一设计被集成到 MAE 中，降低了 Pixel-based MIM 在建模能力上的“资源浪费”，同时改善了收敛性，并在各种下游任务上取得了不错的改进。特别是在较小的模型上，这种方法可以显著提高性能。

动机

自监督学习在计算机视觉方面取得了显著进展。其中，MIM 范式通过重建输入图像的遮挡部分来捕捉其语义。它拥有简单的训练流程和高下游任务性能。然而，像这些基于 pixel 的基础方法，如 MAE，虽然有简单的预训练流程和最小的计算开销，但是它们通常偏向于捕获高频细节，浪费了可以更好地用于捕获低频语义的建模能力。作者的目标是减少这种建模能力的浪费，以改善下游视觉任务的学习表示质量。为此，他们设计了两个试点实验，并提出了对应的解决方法 MFF：

融合浅层：此处不仅使用输出层进行像素重建，还实现了一种权重平均策略来融合所有先前层。这些权重在预训练过程中动态更新，揭示了每层对重建任务的重要性。

频率分析：这里分析了每层特征的频率响应，发现浅层包含更多的高频成分，与低级细节（如纹理）有关。

多级特征融合：通过显式地将浅层的低级特征合并到输出层中，减轻了模型过分关注这些低级细节的负担，使其能够更好地捕捉高级语义。

方法

如上所述，本文提出了一种用于像素级遮挡图像建模（MIM）的新方法，该方法尤其聚焦于多层特征融合（Multi-level Feature Fusion，MFF）。下面，我们将遵循文章脉络详细介绍下具体方法。

像素级 MIM 简介

像素级 MIM 旨在预测原始或后处理图像的原始像素值。该过程可以视为去噪自编码器，并遵循简单的流程。对于被遮挡的图像，可以将可见标记和/或遮挡标记送入编码器；如果仅使用可见标记，那么遮挡标记和编码器输出的潜在特征都必须送入解码器。

多层特征融合

本文提出了一种多层特征融合机制，并将其整合到现有的像素级 MIM 方法中。以下是具体步骤：

输入和编码： 给定图像 , 通过编码器获取潜在表示。
选择融合层： 选择编码器的深度层 , 并确定要融合的层数（在本文中, ）。作者首先通过消融研究选择浅层, 并通过试验选择了包括最后一层在内的6层进行融合。
投影层： 在融合前, 通过投影层对额外的层进行调整, 以便在不同层次之间对齐特征空间。
融合层：引入融合层来融合多层特征。同时将对应输出输入解码器进行像素重建。

投影和融合层的实例化

投影层一般可以设置成线性或非线性的，不过根据文章的实验表明，简单的线性层在框架内就足够有效。

而对于融合层来说，其目的是从浅层特征中收集低级信息。文章评估了两种常用的融合方法：加权平均池化和基于自注意力的融合。加权平均池化策略通过动态更新权重来实现，自注意力方法则使用现有的Transformer层。实验结果表明，加权平均池化与自注意力相当，但更简单且计算效率更高。

总的来说，这种方法通过集成浅层和深层的特点，弥补了像素级 MIM 倾向于捕捉高频细节而忽略低频语义信息的问题，从而提高了模型的性能。

实验

从实验结果可以看出，结合 MFF 策略的 MIM 模型大都可以有效涨点。

消融实验的结果分析了三个关键方面：浅层的重要性、用于融合的层数，以及投影层和融合策略的影响。

浅层是否重要？

实验考虑了将输出层与浅层或深层融合的效果。结果表明，与深层融合只带来了微小的改进，而将低级特征直接从浅层融合到输出层则显著提高了性能。这是因为这样做使模型能够更专注于语义信息。因此，本文方法最终决定使用浅层（即第一层）进行多层特征融合。

用于融合的层数多少合适？

除了输出层和前面选择的浅层外，合理的做法是考虑使用中间层进行融合，因为它们可能包含有助于重建任务的额外低级特征或高级含义。实验尝试了在浅层和输出层之间均匀选择1、2和5层。结果显示，引入更多层会带来持续的改进，因为它们可能包含有助于模型完成重建任务的独特特征，例如纹理或颜色。然而，当融合所有这些层时，所有下游任务的性能都会下降，这可能是因为这些层之间的冗余导致优化难度增加。

投影层和融合策略是否重要？

实验还调查了投影层对最终结果的影响，发现简单的线性投影层足以取得令人满意的结果，与不使用投影层或非线性投影层相比。线性投影层有助于减轻不同层之间的领域或分布差距，但非线性投影层则引入了计算开销，并更难以优化，从而实现了次优性能。至于融合策略，作者发现加权平均池化策略最有效，与attn相比，这种策略更简单，计算开销更小。

让我们简单总结下，消融实验的结果揭示了浅层的重要性，选择适当数量的层数以及采用线性投影和加权平均池化策略的重要性。这些发现有助于提高多层特征融合在像素级 MIM 方法中的性能，并提供了实现这些改进的具体指导方针。通过对浅层、中间层的混合和合适的投影与融合策略，该方法提升了图像重建任务的精度，为未来的研究提供了有益的参考。

总结

在这项研究中，研究人员系统地探索了等向性架构（如ViT）中多层特征融合在遮挡图像建模中的应用。通过一项初步实验，揭示了浅层低级特征在像素重建任务中的重要性，并在 MAE 和 PixMIM 两种像素级 MIM 方法中应用了简单直观的多层特征融合策略，实现了显著的性能提升。消融实验进一步优化了层数选择和投影融合策略，并发现了该融合可以抑制高频信息并弱化损失。这项工作为像素级 MIM 方法提供了新的视角，推动了这种简单高效的自监督学习范式的发展。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜ICCV2023论文解读｜极市直播

极视角动态：欢迎高校师生申报极视角2023年教育部产学合作协同育人项目｜新视野+智慧脑，「无人机+AI」成为道路智能巡检好帮手！

技术综述：四万字详解Neural ODE：用神经网络去刻画非离散的状态变化｜transformer的细节到底是怎么样的？Transformer 连环18问！