CVPR 2025 | DeCLIP：解耦CLIP注意力，哈工大（深圳）、港大提出通用开放词汇密集感知新框架



CVPR 2025 | DeCLIP：解耦CLIP注意力，哈工大（深圳）、港大提出通用开放词汇密集感知新框架

极市平台

2025-08-20

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

哈工大（深圳）与港大联合提出 DeCLIP，通过“内容-上下文”解耦注意力策略，把 CLIP 升级为首个覆盖 2D/3D/视频/6D 的开放词汇密集感知通用基础模型，一举刷新多项 SOTA。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

当前，目标检测、实例分割等密集视觉感知任务，大多仍受限于一个“预定义”的封闭类别集，这极大地限制了它们在视觉概念无界的真实世界中的应用。尽管像CLIP这样的视觉语言模型（VLM）在开放词汇（Open-Vocabulary, OV）任务上展现了巨大潜力，但将其直接用于需要像素级理解的密集感知任务时，其性能往往不尽人意。

来自哈尔滨工业大学（深圳）和香港大学的研究团队，敏锐地观察到CLIP的这一核心短板：其图像token在深层网络中难以有效聚合空间或语义相关区域的信息，导致最终的特征既缺乏局部判别性，又缺乏空间一致性。简单来说，CLIP“看得懂”整张图的大意，却“看不清”图中每个物体的细节和边界。

为了解决这一难题，研究者们提出了一个名为 DeCLIP 的全新框架。DeCLIP意为“解耦后的CLIP”（Decoupled CLIP），其核心思想是通过一种新颖的解耦学习策略，显著增强CLIP在像素级别的开放词汇表示能力，使其成为一个强大的、可用于多种下游密集感知任务的通用基础模型。

DeCLIP的强大之处在于其通用性，它作为一个基础模型，能够无缝对接到各种开放词汇密集感知任务中，包括2D的目标检测与分割、3D实例分割、视频实例分割乃至6D物体姿态估计，并在这些任务上都取得了SOTA或接近SOTA的性能。

论文标题: Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception
作者团队: Junjie Wang, Keyu Chen, Yulin Li, Bin Chen, Hengshuang Zhao, Xiaojuan Qi, Zhuotao Tian
机构: 哈尔滨工业大学（深圳），香港大学
论文地址: https://arxiv.org/pdf/2508.11256v1
代码地址: https://github.com/xiaomoguhz/DeCLIP

研究背景：CLIP在密集感知任务中的困境

CLIP的成功源于其在海量图文对数据上的对比学习，使其能够学习到强大的图像级-文本对齐的语义表示。然而，这种图像级的预训练范式也带来了其在密集感知任务上的“先天不足”。

研究者通过可视化CLIP和视觉基础模型（Vision Foundation Models, VFM，如DINOv2）的自注意力图谱发现：

如上图所示，VFM（右）的注意力能够从浅层到深层始终聚焦于语义相关的区域。而CLIP（左）的注意力在网络深层会突然“跑偏”，图像的各个token不再关注语义本身，而是高度关注少数几个特定的“代理token”（proxy tokens），导致了局部语义信息的丢失和空间一致性的破坏。这正是CLIP直接用于密集感知任务时性能不佳的根本原因。

虽然已有工作尝试通过微调或与其他模型（如SAM）结合来适配CLIP，但它们或需要昂贵的密集标注，或局限于区域级对齐而无法用于分割，或只是简单组合而未能从根本上增强CLIP自身。DeCLIP则另辟蹊径，旨在从内部增强CLIP的密集特征表示能力。

DeCLIP：解耦内容与上下文，双管齐下

DeCLIP的核心创新在于，它将CLIP最后一个自注意力模块的功能进行“解耦”，分别学习两种关键特征：

内容特征 (Content Features)：负责提升局部判别性，即区分不同物体的能力。
上下文特征 (Context Features)：负责提升空间一致性，即理解同一物体内部区域的连贯性。

上图详细展示了DeCLIP的框架。通过这种解耦设计，DeCLIP可以为这两种特征施加不同的、更具针对性的监督信号，从而避免了直接微调时产生的优化冲突。

上下文特征增强：融合VFM与扩散模型

为了增强上下文特征的空间一致性，DeCLIP引入了强大的“教师”模型进行知识蒸馏。有趣的是，它不止一位老师：

VFM (如DINOv2) 作为主教师：VFM拥有强大的语义相关性知识，能够告诉DeCLIP哪些像素在语义上是相似的。但研究者发现VFM提供的语义关联图存在边界模糊、内部有空洞的问题。
扩散模型 (Stable Diffusion) 作为助教：为了弥补VFM的不足，DeCLIP巧妙地利用了SD模型的自注意力图。SD的注意力图对物体轮廓等高频信息高度敏感，具有很好的物体完整性。通过将SD的注意力图作为“引导”，对VFM的语义关联图进行补全和增强（SD-Guided Semantic Completion），DeCLIP获得了近乎完美的、兼具语义准确性和边界完整性的上下文监督信号。

上图清晰地展示了经过SD引导的语义补全后，VFM的语义亲和力图（Semantic Affinity Map）在物体完整性上得到了显著提升。

内容特征增强：对齐区域表示

为了增强内容特征的局部判别性，DeCLIP采用了自蒸馏的策略。它将输入图像切块，然后将DeCLIP自身编码器输出的区域特征与“教师CLIP”对相应图像块编码得到的[CLS]特征进行对齐。这种方法继承了CLIP强大的图文对齐能力，并将其迁移到了区域级别。

同时，为了防止在对齐过程中破坏原有的空间相关性，DeCLIP还引入了区域相关性约束 (Region Correlation Constraint, RCC) ，利用VFM的区域相关性作为额外的约束，保证了模型在学习局部细节的同时，不会丢失整体结构信息。

全面领先的实验结果

DeCLIP作为一个通用的开放词汇密集感知基础模型，在六大类任务上进行了全面评估，并取得了SOTA性能。

2D检测与分割：在OV-COCO和OV-LVIS等数据集上，无论是结合F-ViT还是OV-DQUO，DeCLIP都带来了显著的性能提升。

3D实例分割：在ScanNet200数据集上，DeCLIP同样大幅提升了Open3DIS等基线方法的性能，尤其是在长尾类别（APtail）上，提升高达 5.9% AP。

视频实例分割：在LV-VIS、OVIS等多个视频数据集上，DeCLIP与CLIP-VIS结合后，刷新了该任务的SOTA记录。

6D物体姿态估计：在REAL275和TOYL数据集上，DeCLIP替换Oryon中的CLIP骨干后，在关键指标AR上分别提升了 5.4% 和 **2.3%**。

免训练分割：在多个数据集的免训练（Training-Free）语义分割任务上，DeCLIP也全面超越了ClearCLIP、SCLIP等现有方法。

消融实验也充分证明了DeCLIP中每个模块的有效性，特别是内容-上下文解耦蒸馏以及SD引导的语义补全，都对最终性能有巨大贡献。

总结与价值

DeCLIP通过对CLIP内部注意力机制的深刻洞察，提出了一种新颖的解耦学习框架，成功地解决了CLIP在密集感知任务中局部判别性和空间一致性不足的核心痛点。它巧妙地融合了VFM和扩散模型的优点，为CLIP的密集特征学习提供了高质量的监督信号。论文的贡献可以总结为：

揭示了CLIP在密集感知任务中的核心局限：即深层注意力模式的退化。
提出了DeCLIP框架：通过解耦内容和上下文特征，实现了对CLIP密集表示能力的根本性增强。
首创SD引导的语义补全：创新地利用扩散模型来提升VFM的语义图质量，为知识蒸馏提供了更优的教师信号。
建立了强大的OV密集感知基础模型：在2D、3D、视频、6D姿态等广泛任务上验证了其作为通用骨干网络的卓越性能和巨大潜力。

DeCLIP为如何将大规模预训练的VLM适配到下游密集任务提供了一个极具启发性的范例。它不仅仅是简单的模型拼接或微调，而是深入模型内部，通过“解耦-增强”的策略，精准地弥补了模型的短板，最终打造出一个性能强大且应用广泛的基础模型。这项工作无疑将推动开放词汇感知技术向更广阔、更复杂的真实世界应用迈出坚实的一步。