CVPR2024｜vivo提出使用对抗微调获得泛化性更强的SAM，分割直接登顶 SOTA！



CVPR2024｜vivo提出使用对抗微调获得泛化性更强的SAM，分割直接登顶 SOTA！

极市平台

2024-06-21

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

在不依赖额外数据、不更改基础架构且不牺牲零样本能力的条件下，如何进一步提升SAM作为基础视觉模型的泛化性？ >>加入极市CV技术交流群，走在计算机视觉的最前沿

在计算机视觉不断发展的领域中，基础模型已成为一种关键工具，显示出对多种任务的出色适应性。其中，由 Meta AI 开发的 Segment Anything Model（SAM）在图像分割任务中表现杰出。然而，和其他类似模型一样，SAM 在某些特定的细分应用中也遇到了限制，这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。

本文介绍了一种名为 ASAM 的新方法，它通过对抗微调来增强 SAM 的性能。研究者受到了自然语言处理领域成功应用自然对抗样本的启发，成功将地在计算机视觉里激发了这一方法的潜力。作者使用一个鲁棒的扩散模型对 SAM-1B 数据集的一个子集（1%）进行了增强处理，生成了更能体现自然变化的、而非传统的不易感知的干扰对抗样本。ASAM 保留了对抗样本的视觉逼真性，并确保与原始的 Mask 标注对齐，从而维护了分割任务的完整性。微调后的 ASAM 在多种图像分割任务上展现出了显著的改进，而且不需要额外的数据或改动架构。作者的广泛评估结果证明，ASAM 在图像分割任务中设立了新的性能基准，推动了计算机视觉领域基础模型的进步。

原文链接：https://arxiv.org/pdf/2405.00256

项目页面：https://asam2024.github.io/

1 Introduction

基础模型的概念在自然语言处理（NLP）领域以及近期计算机视觉领域的发展中起到了关键作用。这一概念源于NLP领域，具有里程碑意义的模型如BERT、GPT系列、LLaMA和PaLM，在未曾见过的任务对于零样本泛化能力方面表现突出。这一成功促进了计算机视觉领域类似的范式转换模型的发展。比如DINOv2、CLIP、BLIP、SAM以及Stable Diffusion等视觉基础模型在多种任务上都展示了卓越的零样本能力和广泛的泛化能力。在这些模型中，专注于图像分割的Segment Anything Model（SAM）因其独特性脱颖而出。SAM在超过10亿个Mask的庞大视觉语料库上进行训练，能够分割各种场景中的多样化目标和结构，为该领域带来了革命性的变化。尽管表现印象深刻，但作为一个基础模型，SAM在某些方面尚有改进空间。

Figure 1. Performance comparison between ASAM and SAM on diverse segmentation datasets across different downstream tasks.

研究的一个重要方向是识别并解决SAM在特定下游任务上的局限性，并发展新技术以提升其表现。 微调和Adapter模块等众多技术已被提出，用以针对性优化SAM在特定下游任务中的应用。尽管微调能够针对特殊任务释放SAM潜力，但可能会牺牲模型的泛化能力。其他技术在保留SAM原始参数的同时，加入适配层或后处理模块来提升性能。虽然这些方法的确有效，但它们需要额外的参数和标注训练数据，这限制了其拓展性和效率。

这些挑战引出了本项工作的核心动机：在不依赖额外数据、不更改基础架构且不牺牲零样本能力的条件下，如何进一步提升SAM作为基础视觉模型的泛化性？于是，研究者便能在保持广泛适用性的同时，释放SAM的潜力。虽然现有解决方案在特定场景中有效，但并未根本上解决增强SAM内在性能的挑战。

为了应对这一挑战，研究者从NLP领域获取灵感，尤其是基础模型的研究。NLP中对抗训练（AT）的独特成功案例提供了新的视角。与视觉领域的常规对抗训练通常需要在模型鲁棒性和性能之间做出权衡不同，NLP中的对抗训练不单强化了模型的鲁棒性，也增强了其泛化能力和准确性。这一差异可能是因为NLP中的对抗样本与现实世界中文本场景的相似性更高，例如常见的拼写错误。研究者推断，NLP中对抗训练的成功得益于其生成样本的“真实性”和“自然性”。这一见解引导研究者探索将NLP中成功的对抗训练策略适用于视觉基础模型像SAM这样的模型的可能性。这种方法试图创新性地利用跨领域的见解来改进计算机视觉中的特定任务。

将这一理念应用于SAM，ASAM以增强视觉基础模型为目标，致力于利用类似于在NLP中发现的“自然”的对抗样本。受到NLP中成功的优化方法的启发，研究者提出使用这些更加“自然”的对抗样本来微调SAM，从而避免了传统对抗训练通常伴随的高成本问题。生成视觉对抗样本的传统方法通常依赖于范数约束，这导致产生的干扰并不自然，并且与真实世界的噪声有着显著不同。这种区别导致了这些对抗样本与现实世界中的真实挑战性情景之间的偏差。

为了生成既自然又逼真的对抗性样本以微调SAM，研究者受到最新对抗性攻击技术ACA, NeurIPS2023[1]的启发，假设自然图像能够通过生成模型被投射到一个低维的流形上。这个通过自然图像训练而得到的流形确保了图像的逼真性和内容的丰富性。通过将图像映射到该流形，并在流形内沿对抗方向移动，研究者可以生成既自然又逼真的对抗性样本。

为了在逆向映射过程中保证对象形状与原始 Mask 标记的一致性，研究者通过ControlNet将一个额外的 Mask 提示分支集成到生成模型中。这种整合保证了生成的对抗样本在视觉真实性上保持一致，并且与它们的原始 Mask 标记精确对齐。最后，通过使用这些既自然又逼真的、准确对齐的对抗样本来微调大型视觉模型的选定参数子集，研究者在性能上实现了显著提升。总而言之，本研究做出了以下关键贡献：

受NLP领域成功案例的启发，引入一种称为对抗性微调的新框架，以增强诸如SAM这类视觉基础模型的泛化能力。这种方法代表了将跨学科见解创新性地应用于解决计算机视觉任务中的特定挑战。
通过使用生成模型将自然图像投射到低维流形，并通过集成Mask提示分支来生成既自然又逼真的对抗性样本，这项技术在保证自然性的同时也确保了与原始Mask标记的一致性。
利用ASAM，作者仅使用来自SA-1B数据集1%的“自然”对抗性样本来微调SAM，并创建了一种增强版本，即ASAM。为了证实ASAM的有效性，研究者进行了广泛的定量和定性分析。如图1所示，在广泛的分割数据集和多种下游任务上，ASAM显著提高了SAM的性能。

2 Related Works

Segment Anything Model (SAM)

Meta研究团队发布了“Segment Anything”项目。该项目开发了SAM（Segment Anything Model）模型，以及一个广泛的数据库SA-1B，该数据库包含超过10亿个Mask，这些Mask应用于1100万张获得许可、尊重隐私的图片上。SAM模型专为基于提示的图像分割而设计，能够对新的图像分布和任务进行零样本适应。作为一个创新性的视觉基础模型，SAM的零样本分割能力和基于提示的方法已迅速应用于多个领域，包括但不限于图像分割，它还被扩展应用到了3D理解和视频处理等任务中。尽管SAM的能力印象深刻，但其对实际场景的适应性，如医学图像和其他具有挑战性的分割条件，仍然是研究的热点。在分割微小细长物体、边界模糊物体、伪装物体以及透明物体时，SAM面临着挑战。与所有基础模型一样，SAM仍有进一步改进的空间。

为了应对这些挑战，研究人员采用了多种方法。例如，MedSAM中提出了一种简单的微调方法，适应将SAM应用于一般医学图像分割。在3D和2D分割任务上的详细实验表明，MedSAM在性能上超越了默认的SAM。SAM-Adapter 模块利用特定领域的信息或视觉提示，通过一个简单而有效的Adapter来增强分割网络。

通过结合特定任务的知识和大型模型学习到的通用知识，SAM-Adapter能够在复杂任务上显著提升SAM的表现。虽然微调可以开发SAM针对特定任务的潜力，但可能会牺牲其泛化能力。其他方法则是在不更改SAM的原始参数的情况下，通过添加适配层或后处理模块来提升性能，像是SAM-HQ和Semantic-SAM等。这些方法虽有效，但由于需要额外的参数和标注数据进行训练，因此限制了它们的可扩展性和效率。此外，优化输入提示或改进SAM输出的方法也是增强模型表现的有效策略。

与上述现有方法不同，ASAM旨在进一步提升SAM在作为视觉基础模型上的泛化能力。研究团队努力在不依赖大量额外数据、不改变模型架构、且不牺牲模型的零样本能力的情况下，实现这一目标。

Adversarial Examples & Adversarial Training

在计算机视觉领域内，对抗样本指的是故意修改过的输入，它们的目的是使模型做出错误的分类。这些干扰通常被定义为在感知上微小的，遵循某种范数（统称为 ϵ ）的图像像素变化，这些干扰是理解视觉模型面对对抗攻击时的脆弱性的基础。作为一种有效的防御机制，对抗训练（AT）的目的是通过训练模型识别这些对抗样本来提高模型的鲁棒性。然而，AT常常导致对抗鲁棒性与准确率之间产生一种权衡，这为模型的泛化能力带来了挑战。尽管已经有大量努力旨在减少这种权衡，但AT的泛化问题到目前为止并没有得到完全解决。

相比之下，在自然语言处理（NLP）领域，AT展示了不同的趋势：被发现可增强语言模型的泛化能力和鲁棒性。最近的研究表明AT甚至能够提升基于 Transformer 的语言基础模型的性能。DAT尝试将NLP中对抗训练的成功应用于增强视觉特征，提出离散表示可能是关键因素之一。尽管他们产生的对抗样本比传统干扰更不易察觉，但这些干扰仍然不是完全自然的，与现实世界的噪声存在偏差。在本文中，作者推测AT在NLP中获得成功的原因是其产生的对抗样本具有高度的“真实性”和“自然性”。

值得注意的是，已经有研究尝试通过AT来提升视觉任务中的准确度。AdvProp采用了分割批量归一化策略，以区分干净样本和对抗样本的统计特性，从而改善对抗性特征的学习以实现更好的泛化效果。然而，这种方法并不适用于基于 Transformer 的现代基础模型。受到ACA、LDM与NLP领域成功案例的启发，作者引入了一种称作ASAM的新颖框架，使用在质量上更为“自然”的对抗样本对SAM模型进行微调。这种方法为在不需要大量额外数据或重大架构更改的情况下增强视觉基础模型的泛化能力开辟了新途径，利用对抗样本的“真实性”和“自然性”来提高SAM模型的泛化能力。

3 Method

Overview

作者旨在从SA-1B 数据集中生成“自然”的对抗图像，随后使用这些生成的图像及相应的SA-1B Mask 来微调SAM。注意，在微调SAM时，作者不改变SAM的结构，也不加入任何额外的标注数据。因此，作者提出的ASAM框架仅依靠其固有的数据和结构特性，实现了提高SAM泛化能力的目标。作者提出的ASAM框架主要包括两个步骤，以下将详细描述。

对抗隐变量优化。 现有的生成对抗图像的方法通常遵循范数约束，导致产生的扰动并不完全自然，并且与真实世界的噪声存在域偏移。在本文中，为了生成既自然又逼真的对抗样本以调整SAM，作者假设自然图像可以通过生成模型（如Stable Diffusion）首先投射到低维流形上。随后，通过优化低维流形，作者能够搜索到合适的对抗隐变量表示，从而有效地重新投射到自然图像域。

可控对抗样本生成。 上述优化过程对隐变量添加了轻微的扰动。因此，简单的重新投射可能导致生成的对抗图像与相应的SA-1B Mask 对齐不当。为了解决这个问题，在优化完成后，作者进一步设计了控制分支，它利用ControlNet来指导重新投射过程。

Adversarial Latent Optimization

在此，作者展示了在生成模型的低维流形空间内搜索SA-1B图像的对抗隐变量表示的方法论。考虑到计算成本和图像质量之间的平衡，作者选择Stable Diffusion作为作者的生成模型来产生低维隐变量。随后，作者对生成的隐变量进行优化，这使得可以创建多样的对抗图像。

3.2.1 Projecting Image to Diffusion Latent

扩散反演通常用于将图像投影到低维潜在空间。在扩散模型的情况下，作者采用了DDIM反转技术，该技术利用来自提示P的条件嵌入，使用CLIP文本编码器，基于普通微分方程过程在有限步骤内可逆的前提：

给定一个图像 , 作者使用一个计划，其中。这种方法有效地在去噪过程的相反方向上操作（即，而不是，将图像投影到潜在空间的。每张图像的文本描述是通过 BLIPv2 生成的。

Figure 2. The architecture of our proposed ASAM framework. In the first step, we project the input image into the latent space and thenoptimize the latent space with adversarial technologies. In the second step, we use the optimized latent to generate adversarial samples controlled by masks. Finally, we fine-tune the SAM with the generated “natural” adversarial samples.

文本到图像合成经常强调提示的作用，最终导致了无分类器引导方法的引入。这种方法生成无条件的预测，并将它们与特定输入条件的预测合并。令表示引导比例因子，表示空文本提示的嵌入，那么无分类器引导方法的公式表述如下：

被采用作为Stable Diffusion的标准设置。在DDIM采样的反向过程中，模型预测噪声，可能在每一步引入微小的不准确。考虑到其较大的引导比例参数，无分类器引导方法容易放大这些小错误，导致不准确性的累积。因此，将反向DDIM采样过程与无分类器引导结合使用不仅破坏了高斯噪声分布，还产生了影响真实感的视觉异常。

为了减少错误的累积，ASAM受到[42]中概述的策略的启发，作者为每个时间步优化一个独特的空文本嵌入。最初，使用执行DDIM逆采样过程，得到一系列连续的潜在表示，从开始。随后，作者对时间步进行优化过程，使用，并设置 :

为了便于理解，令表示DDIM采样步骤，其中作为输入潜在表示，作为空文本嵌入，为文本嵌入。完成每一步后，根据方程更新：

最后，作者可以通过优化后的空文本嵌入生成扩散模型的潜在表示。作者在低维流形中利用这个潜在表示生成对抗图像。

3.2.2 Adversarial Optimization of Latent

在本节中，作者对潜在表示进行优化，以增强自然对抗图像的生成。在Sec. 3.2.1建立的潜在空间中，空文本嵌入确保了重建图像的质量，而文本嵌入保留了图像的语义内容。因此，同时优化这两个嵌入可能不会导致最佳结果。考虑到噪声在潜在空间中显著包含了图像的细节，作者选择将优化工作集中在它上面。

基于Sec. 3.2.1生成的潜在表示，作者将扩散模型的去噪过程表征为，通过DDIM采样步骤实现。这个过程包含次迭代

这里，表示第次迭代时的潜在变量，是总迭代次数，代表附加条件变量，表示在每个迭代中应用的空文本嵌入序列。该过程以重建图像结束，由表示。由于变分自编码器（VAE）的可微性质，本文不详细阐述其操作。作者将对抗性目标优化框架如下：

在这个方程中，表示潜在空间中的对抗性扰动，是从SA-1B数据集中获得的 Mask 标签，表示具有固定参数集的SAM。损失函数是均方误差、二进制交叉熵损失和dice损失的组合，表示为。为了保持原始图像与其重建版本之间的一致性，作者认为只要扰动的大小非常小，即，扰动对这种一致性产生的影响最小。

主要挑战是确定能提升分割损失的最佳。借鉴传统对抗策略的方法，作者使用基于梯度的方法来近似，公式为：

其中是与梯度方向对齐的扰动规模。通过应用链式法则展开，作者描述了每个导数分量：

Controllable Adversarial Samples Generation

在获得对抗性隐表示后，可以采用逆向扩散过程来生成最终的对抗样本。然而，在Stable Diffusion空间的优化过程会对对抗性隐变量引入微小的扰动，这将导致生成图像的形状与其对应标签的不匹配。直观地说，这个问题可能通过在扩散模型中使用更精确的提示来解决。然而，仅通过文本描述物体的确切形状是具有挑战性的，因此文本提示控制图像空间形状的能力是有限的。为了克服这一限制，作者在逆向过程中额外训练了一个 Mask 到图像的ControlNet，它提供了增强的空间形状控制能力。

ControlNet调整去噪U-Net架构中的任务特定条件，旨在更精确地引导扩散模型的整体行为。Stable Diffusion模型的核心架构是一个U-Net，包括编码器、中间块和解码器，解码器使用跳跃连接。编码器和解码器各有12个块，包括中间块在内总共有25个块。ControlNet用于生成Stable Diffusion模型的12个编码器块和单个中间块的训练副本。这12个块分布在四个不同的分辨率（64 x 64、32 x 32、16 x 16、8 x 8）上，每个分辨率包含三个块。将这些块生成的输出整合到去噪U-Net的12个跳跃连接和中间块中，增强了其更精细地操纵图像特征的能力。ControlNet的操作表示为，它允许重新配置去噪U-Net：

其中是 Mask 提示。基于去噪U-Net，作者表示对抗样本的重建：

Fine-tuning SAM with Adversarial Samples

与之前改变SAM结构的方法不同，作者的目标是增强SAM的整体能力，而无需进行任何结构修改。为微调选择合适的参数需要仔细考虑，包括效率以及过拟合的风险等因素。在这方面，作者特别选择对SAM的输出标记和 Mask 标记进行微调，这部分参数仅占SAM总参数的大约。

此外，为了确保在保持泛化的同时，对对抗性样本快速收敛，作者采用了在[24]工作中描述的学习率调度策略“慢启动快衰减”。此外，作者提出的ASAM表明，仅使用SA-1B数据集的样本就已经显著提高了性能。

4 Experiment

Experimental Setting

实现细节。 作者使用了在LAION5B 数据集上预训练的 stable-diffusion-v1-5。每个训练图像的描述是使用 BLIPv2 自动生成的。作者使用 ControlNet v1.0 来控制生成过程。作者使用带有 vit-base 主干的 SAM。本文中使用的训练数据集是来自 SA-1B 数据集的 sa_000000 子集。

对于对抗性样本生成过程，作者将 DDIM 步骤 T设置为 50，空文本嵌入的优化步骤数量设为 10，对抗性样本的攻击次数设为 10，攻击大小设为 0.02。作者使用 Adam 优化器对 SAM 进行了 10 个周期的微调。学习率首先从 0.01 线性增加到 0.05，然后呈指数衰减。作者采用 8 块 NVIDIA 48G A6000 GPU 进行训练。

评估数据集。 按照 SAM，作者在训练期间未见过的数据集和任务上评估 ASAM。评估数据集可能包括新的图像分布，例如水下或以自我为中心的图像，据作者所知，这些图像在 SA-1B 中并未出现。作者在 mIoU 评估下使用了一个包含 14 个数据集的新编系列，这些数据集具有多样的图像分布，如表1 所示。

Quantitative and Qualitative Comparison

为了彻底评估作者提出的ASAM的有效性，作者将其与四种不同的方法进行了比较：原始的SAM，使用PGD调优[53]的SAM，使用DAT调优[39]的SAM，以及使用DatasetDM生成的新数据对SAM进行微调。

如表1所示，ASAM明显优于其他调优方法。与原始SAM相比，ASAM在所有14个测试数据集上均实现了性能提升，平均mIoU提高了1.3。这种在多种数据集上的一致性提升强调了ASAM的鲁棒性和有效性，表明其在各种情境下显著提升模型能力的潜力。这种优越性的一个关键原因是SAM已经在大规模数据集上进行了训练。因此，仅对某些样本添加噪声扰动或生成新样本以调优SAM，并没有给SAM带来显著不同的数据分布。实际上，重新调优可能会破坏SAM原本训练良好的参数。

Figure 3. Qualitative comparison of the proposed ASAM and other methods. Yellow boxes represent the box prompts.

与PGD和DAT等现有方法不同，作者的对抗样本是由一个经过优化、由SAM梯度引导的低维流形重建的。这种方法使作者能更有效地解决SAM原始训练中的不足。它提供了一个更符合SAM学习范式的精细化输入，使其能够更有效地泛化到新或具有挑战性的场景。从图3的视觉比较中可以看出，作者提出的ASAM在原始SAM表现不佳的样本上提升了性能。

Ablation Studies

在本研究中，作者对上述提到的14个数据集进行了消融研究，以表明ASAM的有效性。

主要组件。 如表2所示，如果作者仅依靠潜在投影（第3.2.1节）而不采用潜在优化（第3.2.2节），性能会下降，因为它缺少SAM梯度的指导。这种方法错过了基于模型的反馈细化隐表示的重要步骤，这对于与模型学习的模式和复杂性进行投影对齐至关重要。

此外，如果作者仅使用潜在投影，然后与ControlNet一起重建，但仍然省略潜在优化，性能同样不够理想。这种组合虽然稍微复杂一些，但仍然没有利用潜在优化提供的特定于模型的见解，从而没有完全利用投影过程中的潜在改进。最后，当潜在优化与ControlNet结合使用时，作者取得了最好的分割结果。

对抗样本可视化。 为了验证本研究中产生的对抗样本对SAM微调的实用性，作者采用了定量方法进行图像质量评估，与之前的研究保持一致。具体来说，作者为此目的采用了非参考的感知图像质量度量标准。所选的度量标准包括NIMA，HyperIQA，MUSIQ和TReS。NIMA-AVA和MUSIQ-AVA已经在AVA数据集上训练，利用了PyIQA框架。

框架的可迁移性。 为了进一步评估作者ASAM框架的可迁移性，作者在另一个大型视觉基础模型EfficientSAM（ESAM）上进行了实验，这是Meta在CVPR2024提出的新型大型视觉基础模型。表4的结果证实了该框架能够显著提升ESAM的性能。这些发现验证了作者的框架在不同大型模型中的有效性，为提升大型视觉基础模型的能力铺平了道路。

医学领域。

5 Discussion & Future work

尽管作者通过大量的实证实验证明了ASAM的有效性，但除了直接从NLP研究中获得灵感之外，ASAM特定的理论基础仍有待进一步探索。幸运的是，作者发现了一些现有的理论工作，尽管这些工作并不直接适用于作者的任务，但它们可以提供一些理论上的证据。具体来说，作者发现ASAM中的方法与Wong和Kolter提出的理论框架相一致，该框架强调弥合现实世界扰动与对抗防御之间的差距。 这篇文章强调了直接从数据中学习扰动集的价值，这与作者使用稳定扩散模型生成自然对抗样本的方法相呼应。

此外，文中使用条件变分自编码器（CVAEs）进行扰动学习，支持作者在隐空间表示中进行操作的方法论。 这些理论洞察加强了使用生成模型创建对抗样本的有效性，这些对抗样本不仅对模型具有挑战性，而且反映了现实世界的复杂性和变异性。尽管这篇文章不能作为作者工作的直接理论证明，但这一理论支持补充了作者的实证发现，突显了在不同现实场景中提升SAM性能时使用真实对抗样本的有效性。

然而，这种联系仅仅是更广泛理论探索的开始。作者未来的工作旨在深入研究对抗微调的理论方面，特别是在基础模型的背景下。作者计划调查并形式化ASAM有效性的原则，这可能导致在计算机视觉领域中，用对抗样本提升模型性能的更一般化理论。通过建立一个坚实的理论框架，作者可以进一步合法化使用这些技术，并可能揭示改善基础模型在多样化现实应用中能力的新途径。

【1】Content-based Unrestricted Adversarial Attack. NeurIPS2023