MAE内部机制大揭秘 | 自引导掩码策略打破随机Mask瓶颈，超越AMT刷新分类检测分割SOTA



MAE内部机制大揭秘 | 自引导掩码策略打破随机Mask瓶颈，超越AMT刷新分类检测分割SOTA

极市平台

2025-11-11

导读：↑ 点击蓝字关注极市平台作者丨小书童来源丨集智书童编辑丨极市平台极市导读 MAE早期就会自发聚类图像块！

↑ 点击蓝字关注极市平台

作者丨小书童

来源丨集智书童

编辑丨极市平台

极市导读

MAE早期就会自发聚类图像块！Self-Guided Mask利用这一特性自己生成信息遮罩，零外部监督，即插即用，ImageNet-1K 400 epoch 让分类、检测、分割全线刷新 SOTA，线性探测最高再涨 3.4%。>>加入极市CV技术交流群，走在计算机视觉的最前沿

精简阅读版本

本文主要解决了什么问题

MAE的学习机制不明确问题：尽管MAE在计算机视觉领域取得了成功，但其究竟学习什么以及如何学习的问题仍未完全揭示。
现有信息Mask方法依赖外部资源问题：主流的增强MAE方法需要依赖预训练模型、标签或其他外部资源来生成信息性Mask，而非真正理解MAE的内部机制。
随机Mask效率低下问题：原始MAE使用的简单随机Mask策略会延缓对强大块聚类的学习，低效地重复处理在早期阶段已经聚类的易于分离的块。

本文的核心创新是什么

发现MAE内在学习机制：通过深入分析发现MAE在预训练的早期阶段就内禀地学习基于模式的块级聚类，这一特性在预训练的极早期阶段就已显现。
提出自引导Mask自编码器：设计了一种新的Mask策略，通过利用MAE自身在块聚类方面的进展来内部生成信息丰富的Mask，替代了原版MAE的简单随机Mask。
设计了基于块聚类的Mask策略：包括使用归一化切割(Ncut)进行图像二分、以目标为中心的Mask、选择合适的编码器层用于块聚类、以及基于Mask Token利用率确定何时开始信息性Mask等技术。

结果相较于以前的方法有哪些提升

在图像分类任务上的提升：在CIFAR-100、iNaturalist 2019和CUB200-2011等数据集上，self-guided-masked-autoencoder在线性检测和微调两种情况下均优于原始MAE和AMT等基线方法。
在目标检测和分割任务上的提升：在COCO数据集上的目标检测任务(使用Mask R-CNN)和ADE20K数据集上的语义分割任务(使用UperNet)中，self-guided-masked-autoencoder在APbox、APmask和mIoU等指标上均优于基线方法。
特征空间质量的提升：通过注意力距离、傅里叶分析和Mask Token方差等指标分析，self-guided-masked-autoencoder具有更好的全局上下文捕捉能力、更强的基于模式的聚类能力和更精细的图像块聚类过程。

局限性

当使用过度碎片化的图像进行训练时，self-guided-masked-autoencoder可能表现出较不显著的改进，例如某些用于分割任务的数据库。具体来说，由于每张图像中会有大量簇，使用信息性Mask对特定簇进行Mask操作可能会产生与随机Mask相似的Mask。

导读

Mask 自编码器（MAE）是一种用于表示学习的自监督方法，广泛应用于计算机视觉中的各种下游任务。尽管取得了成功，但MAE究竟学习什么以及如何学习的问题仍未完全揭示。在本文中，通过深入分析，作者发现MAE在预训练的早期阶段就内禀地学习基于模式的块级聚类。基于这一理解，作者提出了自引导 Mask 自编码器，该方法通过利用其在块聚类方面的进展来内部生成信息丰富的 Mask ，替代了原版MAE的简单随机 Mask 。self-guided-masked-autoencoder显著提升了学习过程，且无需依赖任何外部模型或补充信息，同时保留了MAE自监督的优势。在各种下游任务上的综合实验验证了所提出方法的有效性。

01 引言

自监督学习已成为一种减轻大量数据标注成本的有吸引力方向。例如， Mask 语言模型（MLM），通过预测输入句子中被 Mask 的词语，被BERT和GPT证明能够捕捉词语的上下文意义。受MLM成功的启发， Mask 图像模型（MIM）被引入计算机视觉领域，利用丰富的未标注图像数据。其中， Mask 自编码器（MAE），配备基于视觉Transformer（ViT）的非对称编码器-解码器结构，证明了对于 Mask 块RGB像素的简单重建足以在各种下游任务上实现具有竞争力的性能。

在MAE取得令人瞩目的性能表现之后，一系列研究涌现，旨在通过整合有信息的 Mask 技术来增强其能力。这些创新性工作利用了多种额外的信息来源，包括由监督ViT生成的注意力图、预训练自监督模型学习到的知识或辅助对抗模块，所有这些目标都是改进 Mask 的质量。然而，这些主流方法仅仅是应用了有信息的 Mask ，而没有真正理解MAE的机制，依赖于预训练模型或标签等外部资源。

为此，作者通过大量实验进行深入分析，以理解MAE的内部运作机制，尽管此前已有数项研究，但MAE究竟学习什么以及如何学习仍未完全阐明。基于对MAE的分析，作者进一步探索了其生成自主知情 Mask 的潜力。作者首先证明MAE本质上学习基于模式的块级聚类，这一特性在预训练的极早期阶段就已显现（第3.3节）。随后，作者揭示了解码器中 Mask Token 的潜在机制（第3.4节）。基于这一理解，作者提出了一种通过完全无监督方式生成的知情 Mask 来加速MAE训练的新方法，该方法无需依赖任何外部模型或补充信息，与以往知情 Mask 方法不同。

作者发现MAE在每张图像中学习基于模式的块级聚类，这源于预训练过程的极早期阶段。
作者提出了一种新的 Mask 策略，即自引导 Mask 自动编码器，该策略完全依赖于块聚类过程中内部量化进展，无需外部模型或标签。
作者在多个下游任务上的全面实验验证了作者所self-guided-masked-autoencoder确实加速了MAE的学习过程。

02 初步研究

Mask 自编码器（MAE）。MAE旨在为各种下游视觉任务（例如分类、检测或分割）学习任务无关的特征表示。

给定一个大小为的图像，MAE 首先将其分割成相同大小的图像块。每个块被线性映射到一个维的嵌入。因此，输入图像被表示为一组这些特征，记为，其中是块的数量。作者将交菁称为块嵌入或 Token Embedding。MAE 随机 Mask 中的一组个块。被 Mask 和可见块的集合分别记为和，其中。且。

MAE 采用基于 ViT的非对称编码器－解码器结构。编码器以为输入，并产生一组相同大小的嵌入，记为。通过编码，块表示被更新以反映整个图像的上下文，仅基于可见部分。然后，解码器以一组个块嵌入如果如果为输入，其中是一个可学习的 Mask Token。每个被著换为 Mask Token ，并应用相应的位置编码以区分它们。解码器的目标是重建的原始 RGB 像素。一旦训练完成，仅部署编码器用于下游任务。

层次潜在变量模型。Kong等人最近发现，MAE的内部操作可以在层次潜在变量模型的框架下得到解释。输入图像中存在高 Level 的共享信息c，它等同于中块之间的统计依赖关系。 MAE编码器通过从可见块中估计共享信息c来学习高 Level 潜在变量，解码器通过 Mask Token 从c中诱导来执行重建任务。

03 MAE分析

作者研究了MAE如何通过token关系概念学习（第3.1节），并证明它在训练的早期阶段（第3.3节）学习了基于模式的块级聚类（第3.2节）。随后，作者揭示了MAE解码器的潜在机制（第3.4节）。在本节中，作者使用了在ImageNet-1K上预训练400个周期的ViT-B MAE ，所有实验均在ImageNet-1K训练集的10%上进行，除非另有说明。

3.1 Token关系

为了理解MAE学习的内容，作者分析其token嵌入及其量化的一对一关系，即注意力分数矩阵A和余弦相似度矩阵 M 。对于输入块以及 Query、Key和Value 的transformer权重和分别由下式给出

其中且表示的第行。作者针对和在两种设置下进行分析。首先，作者使用编码器中的完整 Patch 集计算，即使用所有 Patch 集来计算。这种理想设置提供了最准确的，适合分析 MAE 学习到的特征。作为著代方案，它们可以从包含 Mask Token 的解码器实际设置中获得。由于仅利用可见 Token 来估计，这种设置产生的 Token 关系不如前者准确。

3.2 MAE学习到了什么？

作者研究了在学习的嵌入空间中，样本间关系的分布情况，使用了和的最后一层嵌入，针对 196 个个预留测试图像的图像块。

定性分析。在图2中，作者比较了不同模型（MAE、MoCo 和ViT）的 Patch 表示。图2a展示了测试图像所有196×196 Patch 对之间的归一化成对余弦相似度矩阵（M）。MAE编码器显示出更两极分化的值，即更高的方差，表明 Patch 被更清晰地聚类。图2b说明了 Patch 均值与所有单个 Patch 之间的余弦相似度。在图2中的示例中，背景 Patch 占多数，因此均值 Patch 更接近背景。与主要目标对应的 Patch 明显显示出与均值（背景）较低相似度，这表明MAE编码器基于视觉模式（即纹理和颜色）学习了 Patch 聚类。在投影潜在空间中提供了相似结果，见附录B。

图2c显示了类 Token ([CLs])的注意力分数。由于类 Token 在自监督训练期间不会更新，因此它不携带特别有意义的信息，因此可以被视为一个随机向量。结果，类 Token 在自监督下不会倾向于任何特定 Patch ，因此分数的分布与图2b中与均值 Patch 的关系相似。相比之下，MoCo和ViT未能清晰地区分整个 Patch 之间的模式。

尽管信息有限，解码器在根据其模式对块进行分组方面也表现出色，尽管其效果不如编码器。定量分析。作者此外在ImageNet－1K验证集上测量了特征方差和成对相似度方差：

其中和更高的表明patch embeddings在特征空间中分布更广泛，而更高的表明patch聚类更强。

在表1中，MAE編码器和解码器显示出显著更高的和，与MoCo和ViT相比，这表明它们的图像块嵌入在嵌入空间中具有更多样化的聚类，而不是简单的著代方案，例如二分法。鉴于MAE中高频信息（例如模式或纹理）的显著利用（图7），作者可以定量地确认MAE有效地根据图像块的模式进行聚类。MoCo和ViT显示出显著更低的和，因为它们倾向于学习更简单的特征图形式，与一致。为了缓解大方差可能是由于少数极端聚类的特征而不是良好可分性的担忧，作者额外测量了 Query 和键之间的归一化互信息（NMI），这是注意力图同质性的指标。如图6所示，作者通过非零NMI确认MAE没有崩溃到少数极端分离的特征组。

3.3 MAE何时学习块聚类？

鉴于MAE在预训练完成后学习图像块聚类，那么它在预训练过程中何时开始学习这些聚类？怍者通过追踪MAE的token关系来回答这个问题。

跨训练的演化二分法。作者从最简单的token簇形式，即二分法开始。通过将图割应用于最终层的，作者将 Patch 聚类为两个最突出的子组。基于这种聚类，作者使用和，在训练过程中追踪簇间边权重的均值（）和簇内边权重的均值（）。

图3a展示了使用M和A测量的和。作者观察到关于差距的两个显著模式：1）随着训练步骤的增加，差距趋于增大，尤其是在注意力分数上更为明显。2）从非常早期的阶段开始，和之间存在明显的差距。解码器也显示出类似的趋势，但不太明显。

符号关系的收敛。超越对符号簇的调查，作者直接追踪训练过程中与训练完成后的符号关系分布之间的差距。具体而言，作者考虑在图像集上第层第个时期的平均KL散度。

其中表示总训练轮数，是一个将输入图像映射到通过第轮训练的第层嵌入计算得到的 Token 关系矩阵（例如 M 或 A ）的函数。

图3b展示了在 400 个epoch内，偶数层上的，使用M和A进行测量。它清晰地表明单调递减，在早期epoch快速收敛，表明从早期epoch开始，块开始被聚类。这一结果强烈暗示MAE在早期epoch学习token关系，并在训练的其余部分逐步加强它。解码器也显示出类似的趋势，但显著性较低。

MAE从训练的早期阶段开始学习对 Patch 进行聚类。

3.4 解码器操作

在之前的实验中，作者观察到在实际场景下，解码器仍然能够构建完整的token关系，这验证了解码器利用了从编码器传递过来的估计共享信息c来补充被掩盖的token 中的缺失信息并对其进行重建。结合作者在第 3.2 节中的发现，作者声称MAE学习到的基于模式的 Patch 聚类在概念上对应于 c 。如果编码器训练充分，其对于可见token的输出嵌入将传递整个图像的通用上下文（即 c ）。然后，通过解码过程，掩盖token通过选择性地关注被上下文化，从而拥有表示目标 Patch 的必要信息，这些信息原本源自c。因此，通过逆转这一过程，作者可以评估编码器是否训练充分，以便精确地关联 Patch，方法是量化中部署的c，该c由估计。基于这一想法，作者提出了一种在训练过程中测量它的新指标，这将成为作者第4节中self－guided－masked－autoencoder的关键。

利用率。作者提出，解码器中对 Mask Token 的整体注意力权重是量化解码器所使用的c数量的良好指标。具体而言，作者使用注意力分数矩阵A（公式1）定义解码器层上 Mask Token 的利用率，这可以解释为注意力展开的特殊情况［1］。对于 Token 索引集和，在层上，中 Token 构建中 Token 的利用率被定义为基于中 Token 对中 Token 的平均注意力权重。

其中是层索引，是第层的注意力分数矩阵。对于和，作者关注的是可见 Token 集、可见 Token 集以及所有 Token 集。例如，表示上下文可见 Token 平均由的 Mask Token 和的可见 Token 组成。

然后，作者递归地男积所有层中的这些比率，以获得 Mask Token 的整体利用率。形式上，集合A中的 Token 构建集合直到第层的累积利用率定义为

在的条件下，第层中与相关的元素（记为）由的元素构成。从上一层继承。和分别以和的比例。因此，对和，对。最后，在具有 Mask 率的第层后，来自可见 Token 和来自 Mask Token 的信息比例给出。

实证分析。作者测量了在某个时刻，可见Token（ R ）＞ O ）和Mask Token（ R ）（）的利用率。在每个解码器层中对 Mask Token 的强烈利用强烈表明它们确实包含大量由编码器估计的共享信息，这些信息比在个epoch之前通过简单插值可见块来表示被 Mask块更有价值。作者观察到，但这可能因模型或数据集而异。

当编码器充分训练能够对块进行聚类时，编码器输出的信息反映了共享信息，并用于在解码器中构成 Mask Token 。这意味着 Mask Token 具有块聚类信息，并开始被强烈利用以重建被 Mask 的块。因此，作者可以从解码器中 Mask Token 的高利用率反过来推理，Mask Token传达了来自编码器的块聚类信息，足以对块进行聚类。该过程通过测量编码器在训练过程中学习的共享信息并通过跟踪方程 7 中累积的利用率来验证。解码器在后对 Mask Token 的强烈利用，意味着编码器目前已充分训练能够对块进行聚类。

04 自主导向信息 Mask

在3.2节和3.3节中，作者展示了MAE编码器从早期阶段学习块聚类，使作者能够将图像适当地划分为两个主要的token聚类，并 Mask 其中一个。换句话说，作者可以在预训练阶段的早期使用MAE本身生成信息丰富的 Mask ，并使用这些信息丰富的 Mask 进行剩余的训练。为了确定MAE何时能够正确地聚类块，作者使用了3.4节中建议的利用率，这使作者能够在第T个epoch时自信地生成信息丰富的 Mask ，最终导致了self-guided-masked-autoencoder的设计。

基于第3节中的这些观察结果，作者受启发于利用从早期阶段学习到的块相关性来加速训练，而不是依赖随机 Mask 。随机 Mask 会延缓对强大块聚类的学习，低效地重新访问在早期阶段已经聚类的易于分离的块，这反映了图像 Token 之间的关键差异性。

基于这一想法，作者提出了自引导信息 Mask 方法，该方法通过密集 Mask 其中两个分离度最高的簇之一来内部注入关于学习到的关键差异的信息。作者强调MAE仍然是在单阶段中训练的；在周期时，作者开始生成信息 Mask ，并继续不间断地训练过程。

借助self-guided-masked-autoencoder，作者可以加速MAE，使其专注于学习区分度较低的 Patch ，而不是浪费时间重复以发现最突出的模式。由于self-guided-masked-autoencoder完全依赖于训练过程中的固有指标，因此它完全不受任何外部模型或额外信息的影响。更详细的推理可以在附录A中找到。

要实现这一点，作者需要1) 对图像进行二分，2) 合理设计信息性 Mask ，3) 选择注意力层来构建信息性 Mask ，以及4) 决定何时开始使用信息性 Mask 。

二分划图。为了根据学习到的关键差异性对图像进行二分划图，作者采用归一化切割（Ncut）［44］来同时考虑不同族之间的差异性以及每个簇内部的相似性。作者构建了一个全连接无向图像图M（公式2），其中包含块及其之间的相似性作为节点和边。为了将所有节点索引集合划分为两个不相交的集合和，作者最小化

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k