ECCV'24｜ClearCLIP：倒反天罡，删除两个组件反而可以提升密集预测性能

极市平台

2024-10-21

↑ 点击蓝字关注极市平台

作者丨晓飞的算法工程笔记

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文介绍了一种名为ClearCLIP的视觉-语言推理模型，它通过在CLIP模型的最后一层中去除残差连接、采用自注意力机制和舍弃前馈网络（FFN），来增强模型在密集视觉-语言推理任务中的性能，特别是在开放词汇语义分割任务上。ClearCLIP在多个基准测试中表现出比现有方法更清晰、更准确的分割图。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2407.12442
论文代码：https://github.com/mc-lan/ClearCLIP

创新点

发现两个关键因素在将CLIP适配密集视觉-语言推理中起着至关重要的作用：残差连接影响的减少以及通过自注意力机制的空间信息重组。
提出ClearCLIP，在CLIP的最后一层中进行了三项简单的修改：去除残差连接、最后一个注意力层中采用自注意力机制以及舍弃前馈网络（FFN）。这些修改旨在增强注意力输出，从而为开放词汇语义分割任务生成更清晰的表示。

内容概述

尽管大规模预训练的视觉-语言模型（VLMs），特别是CLIP在各种开放词汇任务中取得了成功，但它们在语义分割中的应用仍然面临挑战，常常产生噪声分割图，存在误分割区域。

论文仔细重新审视了CLIP的架构，并确定残差连接是降低分割质量的主要噪声源。通过对不同预训练模型中残差连接与注意力输出的统计特性进行比较分析，发现CLIP的图像-文本对比训练范式强调全局特征，而牺牲了局部可区分性，从而导致噪声分割结果。

为此，论文提出了ClearCLIP，这是一种新颖的方法，旨在分解CLIP的表示，以增强开放词汇语义分割。对最终层进行了三项简单的修改：去除残差连接、最后一个自注意力层中采用自注意力机制以及丢弃前馈网络。ClearCLIP可以一致地产生更清晰、更准确的分割图，并在多个基准测试中超过现有方法。

ClearCLIP

基于ViT的CLIP模型由一系列残差注意力块组成。

舍弃残差连接

通过比较COCOStuff数据集中CLIP-B/16和CLIP-L/14模型最后一个模块的残差连接与不同注意力输出的范数来开始分析，可以很容易地观察到这两个子图的共性和差异：

共性在于mIoU曲线和的范数曲线表现出一定程度的正相关。
差异包括：1）CLIP-B/16中的范数远小于CLIP-L/14的范数；2）CLIP-B/16中的注意力修改在q-k基线之上表现出一致的改善，而CLIP-L/14中的情况则没有。

因此，当的影响（或范数）最小化时，注意力修改才是有效的。换句话说，显著削弱了CLIP在密集推断任务上的表现。

为了验证这一假设, 基于 CLIP-B / 16 使用、和进行开放词汇语义分割实验。COCOStuff 数据集上的实验结果如图 3 所示, 发现的 mIoU 接近于零, 这表明残差连接可能对图像分割没有帮助。相反，仅使用的 mIoU 显著高于。图3中的可视化结果表明，CLIP 的噪声分割图可以分解为一个模糊的图和一个更清晰的图。根据这些实验结果，可以初步得出结论：分割图中的噪声主要来源于残差连接。

为了进一步证明如何影响 CLIP 的性能, 引入了一个缩放因子 , 使得，该因子控制相对于的相对影响。实验表明表明更大的显著提升了性能，这清楚地说明了对性能的不利影响。

最后，论文建议直接舍弃残差连接以在密集的视觉-语言推理任务中实现最佳性能。

舍弃前馈网络（`FFN`）

Transformer架构中的前馈网络（FFN）在建模数据中的关系和模式方面起着至关重要的作用，但最近的研究显示，FFN在推理过程中对图像表示的影响微乎其微。最后一个注意力模块中的FFN特征与最终分类特征的余弦角度明显更大，因此建议在密集预测任务中舍弃FFN。

在应用于基础CLIP模型时，论文发现移除FFN对开放词汇语义分割任务的影响较小。但当与去除残差连接相结合时，舍弃FFN会导致结果的改善，特别是在模型规模较大的情况下。这种改进的原理在于，去除残差连接显著改变了FFN的输入，从而影响其输出。因此，去除FFN的输出可能会减轻其对性能的负面影响。