

基于掩码指代建模的视觉定位和指代分割单塔统一框架

极市平台

2025-10-23

导读：↑ 点击蓝字关注极市平台编辑丨极市平台极市导读 OneRef统一视觉-语言特征空间，提出掩码指代建模（MRe

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

OneRef统一视觉-语言特征空间，提出掩码指代建模（MRefM）同时重建跨模态指代内容，无需融合Transformer或定位token，在REC/RES五项数据集刷新SOTA，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文题目：Towards Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

论文发表会议：38th Conference on Neural Information Processing Systems (NeurIPS 2024)

Arxiv链接：https://arxiv.org/abs/2410.08021

发表链接：https://proceedings.neurips.cc/paper_files/paper/2024/hash/fcd812a51b8f8d05cfea22e3c9c4b369-Abstract-Conference.html

代码和模型：https://github.com/linhuixiao/OneRef （代码和模型已全部开源）

摘要

现有的视觉定位和指代分割工作受到视觉和语言独立编码的限制，严重依赖于笨重的基于 Transformer 的融合编码器/解码器和各种早期阶段交互技术。同时，当前的掩码视觉语言建模(mask visual language modeling，MVLM)在指代任务中无法捕捉图像-文本之间微妙的指代关系。在本文中，我们提出OneRef，一个极简的、建立在模态共享Transformer上的指代框架，其统一了视觉和语言特征空间。

为了对指代关系进行建模，我们引入了一种新的MVLM范式，称为掩码指代建模(MRefM)，它包括指代感知的掩码图像建模和指代感知的掩码语言建模。这两个模块不仅可以重构与模态相关的内容，还可以重建跨模态的指代内容。在MRefM中，我们提出一种指代感知的动态图像掩码策略，该策略可以感知指代区域，而不是依赖于固定掩码比率或通用的随机掩码方案。

通过利用统一的视觉语言特征空间，并结合MRefM的建模指代关系的能力，本工作的方法可以直接回归指代结果，而无需依赖于各种复杂的技术。本工作的方法连续地超越现有的方法，在定位和分割任务上都达到了SoTA的性能，为未来的研究提供了新的有价值的思路。

01 Introduction

视觉定位(Visual Grounding，VG)的目的是在特定图像中定位表达查询文本所指代的区域。广义的视觉定位 / 指代任务包括指代表达理解(Referring Expression Comprehension，REC)、短语定位(Phrase Grounding，PG)和指代表达文本/图像分割(Referring Expression/Image Segmentation，RES/RIS)。在REC/PG中，所定位的区域用矩形边界框表示，而在RES/RIS中，定位区域用指代目标的不规则的细粒度分割掩码表示。目标检测或实例分割通常依赖于一组封闭的类别集合来检测或分割满足目标标签的多个区域，与之不同的是，视觉定位并不局限于固定的类别。它需要理解查询文本的语义，然后再定位或分割特定一个区域。因此，视觉定位是一项强烈依赖于视觉和语言特征的多模态交互和对齐的任务。

自从BERT和ViT提出以来，最先进的(state-of-the-art，SoTA)定位工作广泛采用了预训练和微调范式。如图1所示，现有的使用预训练模型的研究，无论是使用了单模态预训练模型分别迁移视觉和语言知识，还是使用多模态预训练模型，主要可以分为三种典型的架构:

两个模态编码器结合一个跨模态融合编码器，如TransVG等;
额外再加一个解码器，以MDETR等为例;
基于语言引导的视觉特征的直接回归，如LAVT、TransVG++等。

然而，在这些研究中，都集成了模态相关的编码器，使得这些工作很难将两种模态无缝集成到统一特征空间中。因此，这些工作不仅需要额外的基于Transformer 的跨模态编码器/解码器(也即上述1和2)进行视觉和语言的模态融合，而且还在需要在模态相关的编码器之间提出各种各样的精心设计的交互结构和技术，用以促进早期的细粒度跨模态的对齐，例如Adapter适配器，权重生成，图像-文本交叉注意力等等技术。因此，已有的这些方法不仅包含大量的参数，而且涉及复杂的过程。考虑到这些严重的限制，本工作的目标是探索更简单的模态共享的定位框架，它可以在统一的特征空间内统一视觉和语言，从而避免了使用复杂的交互模块、笨重的融合Transformer/解码器以及特殊的定位token。

随着预训练的进步，许多研究都在探索统一模态共享的多模态框架。YORO基于ViLT实现了一种共享编码器。然而，其建模方法会掩盖单模态知识，同时还需要编码器纳入额外的查询锚点，使得它很难使用常见的预训练模型，从而限制了其方法的迁移通用性。ONE-PEACE基于混合专家(Mix-of-Expert，MoE)设计了7个专家分支，构建了三模态基础模型，从而实现了图像、文本和音频模态的融合。

然而，他们的研究采用了大量的三模态数据，同时也没有探索MVLM对指代任务建模的潜在应用。BEiT-3建立在多通路Transformer（Multi-way Transformer）的基础上，同时采用三个MoE头(即视觉、语言、视觉语言)和模态共享结构，在共享的特征空间内有效地统一了视觉和语言。它在各种分类式的跨模态领域(如检索、VQA等)中表现出显著的优势。然而，目前尚无研究探讨在指代任务中如何利用BEiT-3实现迁移。

因此，本工作的目标是在BEiT-3的单塔模型上，在统一的特征空间内探索更加简洁高效的指代定位和指代分割的迁移。然而，BEiT-3模型是利用通用的掩码视觉语言建模(mask visual language modeling，MVLM)方法进行预训练的，这种掩码范式缺乏细粒度的跨模态指代能力，不能有效地建模出图像和文本之间复杂的指代关系。因此，将BEiT-3应用于回归式的指代任务时存在明显的鸿沟。因此，探索如何将细粒度的跨模态指代能力纳入掩码建模范式将成为一个重要的尚未解决的研究问题。

在本文中，本工作提出了一种新的范式，称为掩码指代建模(MRefM)，以及一种统一的、极其简洁的定位和指代分割框架，称为OneRef，不再需要融合或交互的Transformer结构，也不需要特殊的定位Token。

首先，本工作提出MRefM范式，以灵活的方式增强BEiT-3的指代能力。MRefM由两个部分组成：指代感知的掩码图像建模(Referring-aware Mask Image Modeling，简称Referring MIM，指代MIM)和指代感知的掩码语言建模(Referring-aware Mask Language Modeling，简称Referring MLM，指代MLM)。传统的MVLM通常基于单模态MIM和MLM交替或随机训练来实现。相比之下，指代MIM和指代MLM需要重构两种不同类型的内容:与自身模态相关的内容和跨模态的指代信息。

具体而言，（1）指代MIM使用与聚合文本token进行点积运算之后的视觉token进行重建。其不仅需要重建本身掩码的视觉特征，还需要重建视觉目标关联分数，这一分数用以表示当前token与定位区域之间的距离。同时，得分包括四个维度：到定位中心的水平和垂直距离，以及定位区域的宽度和高度。为了提高模型对指代区域的理解能力，本工作提出一种指代感知的动态图像掩码策略，取代传统的固定比例的随机掩码策略，以较高的掩码比例重建指代区域。（2）指代MLM使用与聚合的视觉token进行点积运算后的文本token进行重建。其不仅需要重建掩码文本本身，还需要重建表示当前文本token与指代图像区域之间相关性的语义目标关联分数。

其次，现有的定位和分割模型通常使用[Region] token和多个查询锚（Query anchor）等特殊的定位 token 来回归结果。然而，在主干网络中嵌入[Region] token会破坏预训练的模型，并且查询锚（Query anchor）也依赖于额外的解码器。由于模态共享编码器建立了统一的特征空间，本工作不再需要额外的跨模态的编码器/解码器来融合单模态特征，可以使我们能够更有效地利用预训练主干网络获得的知识。受益于MRefM范式，视觉token内在地包含了指代信息。因此，本工作可以抛弃特殊的定位token或者查询anchor，直接在基于点积运算的指代MIM的基础上构建起轻量级且高度简洁的定位和分割任务头，从而实现了统一的指代框架。

贡献:

本工作的贡献有三个方面:

本工作通过提出一种称为掩码指代建模的新范式，首次将掩码建模应用于指代任务。这种范式有效地建模了视觉和语言之间的指代关系。
与以往的工作不同，本工作提出了一个非常简洁的单塔框架，用于在统一的模态共享的特征空间中进行定位和指代分割。本工作的模型消除了常用的模态交互模块、模态融合编码器/解码器和特殊的定位token。
本工作在三个指代任务、五个数据集上广泛的验证了MRefM的有效性。本工作的方法不断地超越了现有的方法，并在多种设置下实现SoTA性能，为未来的定位和指代分割研究提供了有价值的新的思路。

02 Related work

2.1 Referring expression comprehension (REC) and segmentation (RES)

(i)指代表达理解（REC） 最近的有监督的REC任务，也被称为狭义的视觉定位，大致可以分为五种主要方法:

使用单模态预训练语言模型和闭集检测器进行微调。这种设置以TransVG为代表，它建立在CNN时期的二阶段和一阶段方法的基础上。它被认为是最传统和最广泛研究的方法。
基于单模态预训练的语言模型和在混合多个box级别数据集上进行预训练的开放集检测器模型的微调。MDETR代表了这种类型的设置，其模型结构以图1- (a)-(ii)为主。
基于多模态自监督预训练模型的微调。CLIP-VG就是这一类工作的一个例子，这类设置主要是在CLIP提出之后出现的。
多模态多任务混合监督的预训练模型。这些方法通常结合多个任务，同时混合来自多个下游任务的数据集，并结合自监督和细粒度的区域监督来进行混合预训练。UniTAB、OFA等代表了这样的方法，其中视觉定位通常作为预训练任务之一。
定位多模态大语言模型。这些方法受到GPT或LLAMA等工作的影响。这些模型将视觉主干网络集成到大型语言模型中，直接生成定位结果，而不是依赖于回归式技术。

本工作的方法主要属于3。

(ii)指代表达分割（RES）. RES的发展和方法类别与REC大致相似。两者关键的区别在于RES输出的粒度更细，通常需要与REC分开研究。在模型架构方面，RES的工作主要使用两个模态相关的编码器和一个解码器来生成分割掩码。本工作的工作是首次尝试在单塔结构下的统一多模态特征空间中探索RES。

2.2 Mask vision language modeling

受掩码语言建模在BERT上成功的激励，MAE和BEiT率先将注意力转移到MIM。随后，以BEiT-3为代表，出现了大量的MVLM的工作，这些工作大多采用随机交替的单模态MIM和MLM。与本工作的工作最相关的是掩码区域建模(称为MRM)，这些工作要么是单模态的MIM，要么是使用更细粒度的区域数据和对比学习来重建区域和目标标签之间的对齐。然而，本工作的工作侧重于对图像和文本内部细粒度的指代关系进行建模，从而增强跨模态的指代能力，与这些工作有很大的不同。

03 Methodology

在本节中，提出了我们的多模态掩码指代建模(MRefM)的范式，其中包括指代MIM和指代MLM，以及一个特征空间统一的定位和分割框架OneRef。我们将在下面的部分中介绍这些方法。

遵循BEiT-3，我们采用一个多模态且模态共享的Transformer作为底层骨干网络。首先，我们执行先掩码后预测的MRefM预训练，然后对指代任务进行迁移微调。如图2所示，MRefM预训练阶段由两个部分组成: 指代感知的掩码图像建模(Referring-aware Mask Image Modeling，简称Referring MIM，指代MIM)和指代感知的掩码语言建模(Referring-aware Mask Language Modeling，简称Referring MLM，指代MLM)。这两个模块都旨在重建两种类型的内容:每个模态中与模态相关的内容和跨模态细粒度的指代内容。

3.1 Preliminaries 背景介绍

BEiT-3利用MIM、MLM和MVLM分别对图像、文本和图像-文本对进行处理，通过MoE头和共享多头自注意力机制来实现通用表征的获取和学习。值得注意的是，MVLM涉及到MIM和MLM的交替训练。具体地说:

(i) Vanilla mask image modeling. 原始的掩码图像建模

我们将作为输入的图像，通过卷积投影，可以将其转化为个视觉块（patch），其中为图像大小，为块（patch）大小，为统一的特征空间的隐藏维数。然后，我们利用特定的掩码策略掩码特定数量的图像 patch。假设掩码位置定义为。因此，我们使用共享的可学习嵌入来替换掩码图像块嵌入，如果。随后，我们在输入前添加一个可学习的［CLS］token，即［］，并将它们馈送给单塔 Transformer。接下来，我们利用由 MLP 线性投影和 Softmax 分类器组成的 MIM 头来预测掩码图像中掩码位置处的视觉 token。这一视觉 token 使用 BEIT v2［64］中提出的图像 tokenizer（分词器）获得，该分词器为的自监督学习提供监督。我们将原始图像的视觉 token 表示为表示预训练图像的集合。则定义 MIM 的训练损失定义为：

(ii) Vanilla mask language modeling.原始的掩码语言建模

输入文本被一个句子分词器（Sentence Piece tokenizer）进行分词并投影到词嵌入．词汇表大小为 64010，其中为分词后的文本序列的长度。然后遵循 BEiT-3，我们用固定的掩码比对文本 token 进行随机掩码。掩码位置称为。因此，如果，则使用共享的可学习嵌入来替换掩码词 token 。我们在序列前添加一个可学习的特殊 token［SEP］和一个序列终止的 token［EOS］．即［］．随后并将它们馈送给单塔 Transformer。类似地，我们利用由线性投影组成的 MLM 头部，根据被掩码的文本数据来预测掩码位置的文本 token。原始文本 token 记为表示预训练文本序列。那么，MLM的训练损失可以定义为：

图2. 我们的多模态的掩码指代建模(MRefM)范式的示意图。其包括2个部分，分别是指代感知的掩码图像建模和指代感知的掩码语言建模

3.2 指代感知的掩码图像建模

在将视觉和文本token进行拼接（concatenate）之后将其输入到模态共享的编码器当中。通常，原始的MVLM通过交替使用单模态的MIM和MLM来实现。尽管多模态的特征在模态共享的编码器内进行相互作用，但它从根本上仍然是单模态的信息重建。此外，MVLM通过随机掩码图像和文本来获取通用的知识，但这种方式无法有效地对指代关系进行建模。因此，我们提出指代MIM和指代MLM方法。具体来说，如图2所示，我们提出的指代MIM包含了两个额外的模块，也即：视觉目标关联的评分的重建和指代感知的动态掩码策略。

如图 2 所示，在指代的 MIM 中，我们不像以前的方法一样使用单模态的视觉 token。而是提出使用与聚合文本 token 进行点积运算的视觉 token 进行重建。指代 MIM 不仅需要重建模态相关内容，还需要重建视觉目标关联的评分。我们利用一个由三层感知器（MLP）组成的视觉目标关联头来预测分数。分数表示每个图像块（patch）的 token 与指代区域之间的距离，其中代表指代区域的中心坐标和宽度和高度。它包含四个掩模，即 masks，它们分别表示每一个 patch 与指代中心的标准化水平和垂直距离，即，以及每一个 patch与指代区域上的宽度和高度的比例，即，其中表示每个 patch（图像块）的中心坐标。我们把表示为点积运算。那么，最后，指代 MIM 的训练损失定义可以为：

Referring-aware dynamic image masking strategy. 指代感知的动态掩码策略

在现有的掩码策略中，MAE采用的是高比率随机掩码，而BEiT-3采用的是低比率块状随机掩码，两者都不能有效地将注意力有效地引导到指代区域。SemMAE提出了一种语义引导的掩码，但它需要额外的庞大的语义模型，从而限制了它的通用性。为了通过周围的视觉上下文和文本语义增强模型对指代区域的理解，我们提出一种指代感知动态掩码策略，如算法1所示。具体的例子如图3所示。

图3. 随机掩码（MAE）、分块掩码（BEiT）和我们的基于指代的动态图像掩码的示意图。α表示整个掩码比例，而β和γ表示超出和位于引用区域内的掩码比例

我们的策略避免了上述方法的缺点，并将引导模型的注意力到指代区域中。具体来说，我们将图像经过图像块整形后的形状表示为，其中。为了使指代区域的掩码最大化，其中表示指代区域的起始坐标，我们在其周围引入一个边距，并将其块坐标表示为，即和与和相似。其中表示向下取整。因此，所指代区域的 patch 的数量可以表示为。然后，如算法 1 所示，为了确保模型可以对指代区域周围的视觉信息分配适当的注意力，我们对其周围环境使用一个相对低的掩码比率为的随机掩码。同时，我们在该区域的扩展区域中采用了具有较高的掩码比率为的块状（blockwise）掩码。由于指代区域在不同的图像－文本对中是不同的，因此，每个样本的整体掩码比率是动态确定的；

3.3 Referring-aware mask language modeling 指代感知的掩码语言建模

同样，在指代 MLM 中，我们提出不使用单模态语言 token，而是使用与聚合的视觉 token 进行点积运算之后的语言 token 进行重建。指代 MLM 的重构同样不仅需要模态自身相关内容，还需要重建跨模态的语义目标关系得分。这一分数表示指代

目标与语言 token 之间的相关性．该相关性由教师模型（即，经过图像－文本中间对比学习微调的 BEIT－3 模型）通过计算语言 token 与指代区域的聚合视觉 token 以及整个

图像的聚合视觉 token 的归一化相似度的加权和得到：

其中表示余弦相似度运算，表示 softmax 归一化。如图2所示，我们利用由三层 MLP 和 softmax 归一化组成的文本语义目标关联头来预测分数。最后，将指代 MLM 的训练损失定义为：

其中表示使用 Kullback－Leibler 散度的概率预测。

3.4 Referring-based grounding and segmentation transfer 基于指代的定位和分割迁移

在统一的特征空间中对视觉和语言进行建模，可以不必再像传统的工作中使用基于Transformer 的融合编码器和解码器以及各种早期交互技术来进一步统一视觉和语言特征。此外，由于MRefM在预训练过程中对指代关系进行了建模，因此我们可以直接使用输出的token准确地回归定位和指代分割的结果，而无需依赖于广泛使用的特殊定位token(例如[Region] token，查询Achor（锚点）等)。

3.4.1 指代表达文本理解任务

如图 4－（a）所示，在指代 MIM 的基础上，我们首先对视觉 token（分词）与聚合语言 token 进行相似性运算，得到一个 SoftMax 归一化的相似性掩模。然后将这一掩模复制并乘回到视觉token 的每个隐藏维度。随后，对视觉 token求和得到约简的 token，最后使用 3 层 MLP 对预测框进行回归：

为了提高跨模态相似性的准确性，我们提出将相似度作为粗粒度下采样的边界框掩模，并对 Sigmoid 激活之后的相似性掩码施加分割约束。因此。REC任务的损失函数可以重新表述为原始的定位损失（即，平滑 L1 损失和 Giou 损失）和分割损失（即，Focal 损失和 Dice／F－1 损失）的加权和：

Referring expression segmentation.

如图 4－（b）所示，指代分割的实现可以看作是定位的简化版本。最初，我们采用 3 层反卷积将视觉 token 上采样到。随后，对上采样的视觉 token 和聚合的语言 token 进行余弦相似运算。然后将上述得到的相似性掩码在进行 1 层双线性插值之后的结果作为最终的预测掩码。我们将 ground－truth 分割的掩码记为，则 RES 的损失函数定义为：

04 实验分析

如表1、2所示，我们在两种设定下对 REC（指代定位）任务进行实验。 (1) 在单数据集微调设定中， Base基础模型在表1五个数据集上分别超越当前的 SoTA 方法 HiVG为 2.07%(testB)、 6.15%(testB)、 4.73%(test)、 1.95%(test) 与1.50%(test)，同时显著优于传统单模态检测器方法 TransVG++，性能分别提升达到 4.37%(testB)、 7.98%(testB)、 7.22%(test)、 2.47%(test) 与 2.12%(test)。 (2) 在数据集混合预训练设定中， Base基础模型在 RefCOCO/+/g 的 testB/testB/test 划分上分别超越 HiVG 为1.35%、 2.79% 与 2.63%，超过 Grounding-DINO 达2.59%、 4.76% 与 2.38%，优于 OFA 达到 5.28%、 5.18% 与 5.01%，甚至超越了参数量是我们20-60 倍的 GMLLM 模型 LION，提升达到3.76%、2.13% 与 1.69%。需指出，UniTAB、OFA、LION等工作中同样采用 MVLM 进行预训练。

如表3所示，我们在两种设定下进行 RES（指代分割）任务实验。 (1) 在单数据集微调设定中，Base基础版模型在 RefCOCO/+/g 的 testB/testB/test 划分上分别超越 SoTA 自监督方法RISCLIP达到 2.65%、 4.77% 与 1.73%，同时显著优于传统单模态检测器方法 VG-LAW 达到 3.42%、 7.31% 与 4.57%。 (2) 在数据集混合预训练设定中，Base基础版模型相较 SoTA 方法 RISCLIP 实现 4.53%、 8.21% 与 5.39%的性能提升。

如图5所示，我们展示了 OneRef-B 模型在 RefCOCOg 数据集上一些相对具有挑战性的应用示例，并给出了模型的指代定位（REC）和指代分割（RES）的定性结果。这些结果表明，我们的 OneRef 模型在复杂文本理解和跨模态指代定位任务中展现了强大的语义理解的能力。

05 Conclusion

在本文中，我们提出了一种新颖的、高度简洁的、特征空间统一的单塔指代框架。此外，我们通过引入MRefM范式，在指代任务中首次探索了掩码建模，以捕捉视觉和文本之间细粒度的指代关系。我们展示了MRefM在REC、PG和RES任务在三种设置下的有效性和通用性，连续实现了突破性的成果。此外，利用无监督方法可以使MRefM在未来实现大规模预训练，为指代任务开辟了新的方向。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货