SAM2-UNeXT联手DINOv2，双分辨率+密集粘合层，碾压BiRefNet刷新DIS-VD S-measure



SAM2-UNeXT联手DINOv2，双分辨率+密集粘合层，碾压BiRefNet刷新DIS-VD S-measure

极市平台

2025-11-05

↑ 点击蓝字关注极市平台

作者丨小书童

来源丨集智书童

编辑丨极市平台

极市导读

SAM2-UNeXT 通过双分辨率策略并行 SAM2 与 DINOv2 编码器，用密集粘合层融合局部细节与全局语义，在四个二值分割基准上刷新 S-measure、mIoU 等指标，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

精简阅读版本

本文主要解决了什么问题

SAM模型在某些场景下泛化能力受限的问题，特别是在全局语义上下文捕获方面存在局限。
如何构建更强大且更具泛化能力的编码器以进一步提升分割性能的问题。
传统分割网络通常需要复杂的解码器设计，但一旦知识在编码阶段丢失，就无法在解码阶段完全恢复的问题。
如何高效整合多个基础模型以充分利用它们互补优势的问题。

本文的核心创新是什么

提出了SAM2-UNeXT框架，通过整合辅助的DINOv2编码器扩展了SAM2的表征能力，实现两个基础模型的协同工作。
引入双分辨率策略，让SAM编码器在更高分辨率输入(1024×1024)上运行，而DINOv2编码器处理更低分辨率的输入(448×448)，提高计算效率。
设计了密集粘合层，通过通道对齐、空间调整和特征融合策略有效整合SAM2和DINOv2的特征，实现互补优势。
采用U-Net风格的解码器，并引入额外的部分解码器，提高最终分割特征图的分辨率，有利于边界分割精度敏感的任务。

结果相较于以前的方法有哪些提升

在二值图像分割任务上，在DIS-VD子集上将S-measure提升了1.2%，整体性能优于BiRefNet等先前方法。
在伪装目标检测任务上，在CHAMELEON数据集上将S-measure提升了2.8%，在所有指标上均实现持续改进。
在海洋动物分割任务上，在MAS3K数据集上将mIoU提升了5.4%，显著优于现有方法。
在遥感显著性检测任务上，在ORSI-4199数据集上在S-measure上实现了1.1%的提升，在两个数据集上均优于所有竞争方法。
在各种复杂场景下（如细粒度的树枝、复杂的多目标组合、光照变化以及具有网格结构和阴影干扰的场景）表现出更优的分割精度，有效处理曲线边缘、细小结构和微妙的视觉边界。

局限性总结

双分辨率策略虽然提高了计算效率，但仍然需要处理两个不同分辨率的输入，增加了计算复杂度。
DINOv2编码器的参数被完全冻结，没有进行微调，可能限制了其在特定任务上的适应能力。
模型在所有任务上均以批量大小为1进行训练，可能影响训练效率和模型稳定性。
虽然框架具有可扩展性，但论文中只测试了DINOv2作为辅助编码器，其他类型编码器的效果尚未充分探索。
在更高分辨率配置下(如DINOv2分支使用672×672)，推理成本显著增加，使得这种配置不太实用。

导读

近期研究强调了将Segment Anything Model (SAM)应用于各种下游任务的潜力。然而，构建一个更强大且更具泛化能力的编码器以进一步提升性能仍然是一个开放性挑战。在本工作中，作者提出了SAM2-UNeXT，一个基于SAM2-UNet核心原理的先进框架，通过整合一个辅助的DINOv2编码器扩展了SAM2的表征能力。通过引入双分辨率策略和密集粘合层，SAM2-UNeXT能够在简单架构下实现更精确的分割，减轻了对复杂解码器设计的依赖。在包括二值图像分割、伪装目标检测、海洋动物分割和遥感显著性检测在内的四个基准测试中进行的广泛实验，证明了SAM2-UNeXT具有优越的性能。

代码 https://github.com/WZH0120/SAM2-UNeXT

01 引言

基础模型在计算机视觉、自然语言处理、智能医疗、自动驾驶以及其他领域中正发挥着日益关键的作用。在图像分割领域，Segment Anything模型（SAM）系列引起了广泛关注。传统的较小分割网络通常将大量设计精力投入到复杂的解码器模块中。然而，一个基本局限性依然存在：一旦知识在编码阶段丢失，就无法在解码阶段完全恢复。相比之下，基础模型凭借其庞大的参数容量和复杂的预训练策略来学习高质量的表征，即使采用相对简单的解码器架构也能实现精确的分割性能。

尽管基础模型展现出强大的泛化能力，特定任务的适配，例如参数高效微调（PEFT），对许多下游应用仍然至关重要。近期方法通过将轻量级 Adapter 、LoRA模块或类似组件集成到编码器中，并结合解码器优化策略，取得了显著成果。然而，单纯依赖SAM在某些场景下仍会导致泛化能力受限。例如，在ImageNet分类任务中，SAM编码器的线性 Prob 精度显著低于CLIP和DINOv2等其他大型模型。一个合理的解释是，SAM的类无关分割预训练会导致表征偏差，倾向于捕捉细粒度的局部细节，而忽略了全局语义上下文的捕获。

基于上述分析，作者提出了SAM2-UNeXT，这是一个统一且可扩展的框架，它协同整合了多个基础模型，包括SAM2 和DINOv2，以充分利用它们在细节感知和语义表示方面的互补优势。所提出的SAM2-UNeXT具有以下关键优势：

简洁性。SAM2-UNeXT简化了任何额外的注意力设计，并专注于轻量级且高效的编码器融合策略。

可扩展性。凭借对动态分辨率调整和灵活的辅助编码器配置的支持，SAM2-UNeXT可以方便地适应广泛的下游任务。

有效性。在四个公共基准数据集上的大量实验表明，SAM2-UNeXT在有限的训练轮次下，能够在各种场景中始终实现优异的分割性能。

2 方法

如图1所示，所提出的架构由四个关键组件构成：SAM2编码器、DINOv2编码器、密集粘合层和U-Net风格的解码器。

2.1 SAM2编码器

在这个阶段，作者紧密遵循SAM2-UNet 的实践，从SAM2中采用Hiera 编码器并冻结其所有原始参数。通过在每个Hiera模块之前插入轻量级 Adapter 进行参数高效微调（PEFT）。该 Adapter 采用简单的"MLP-GeLU-MLP-GeLU"结构，具有32通道 Bottleneck 。

2.2 DINOv2编码器

与Segment Anything系列相比，DINOv2作为一个更通用的视觉基础模型，通过自监督学习训练，展现出在广泛视觉任务（包括分类、分割和深度估计）上的强大迁移能力。遵循原始实现方案，作者冻结了所有DINOv2参数，且未采用任何参数高效的微调策略，以平衡训练效率和性能。

2.3 双分辨率设计

将两个大型编码器直接结合的一种简单方法是处理相同分辨率的输入；然而，这种方法在计算上效率低下。特别是对于依赖于标准自注意力机制的DINOv2，提高输入分辨率会导致计算成本大幅增加。考虑到SAM专注于细粒度的局部细节，而DINOv2强调全局语义理解，作者采用双分辨率策略：SAM编码器在更高分辨率的输入上运行，而DINOv2编码器处理更低分辨率的输入

2.4 密集粘合层

与Hiera的层次化设计不同，DINOv2采用的vanilla Vision Transformer 架构在每一层都生成非层次化、尺度一致的嵌入。利用此类transformer特征的一种常见方法是增强层次化编码器的最终特征图。相反，作者采用了一种密集融合策略，该策略灵感来源于DINOv2展现出强大零样本能力的观察：其编码表示在主成分分析后变得高度可解释，无需任何微调即可有效突出感兴趣的前景，换句话说，这些特征可被视为富含全局语义信息的空间注意力图。

基于此，作者首先应用四个1×1卷积来对齐DINOv2特征（DINOv2-L的1024个通道）与SAM2编码器四个阶段的特征（Hiera-L的144、288、576和1152个通道）的通道维度。接下来，将DINOv2特征调整大小以匹配每个相应SAM2特征图的空间维度，并通过简单的通道级拼接进行融合。最后，通过1×1卷积将拼接后的特征压缩至128个通道，以提高训练效率。

2.5 U-Net风格解码器

在这个阶段，作者主要遵循SAM2-UNet的设计，通过将SAM2中的基于transformer的解码器替换为U-Net风格的解码器，其中每个解码器块由两个连续的"Conv-BN-ReLU"层组成。主要区别在于作者引入了一个额外的部分解码器，该解码器不进行特征拼接，从而总共形成四个解码阶段。这种修改将最终分割特征图的分辨率提高到高分辨率输入的一半（而不是四分之一），这对于对边界分割精度敏感的任务是有利的。

03 实验

3.1 数据集和基准测试

作者在涵盖多种分割任务的四个公共基准数据集上进行了实验：

二值图像分割。作者使用DIS5K数据集进行评估。训练集（DIS－TR）包含 3000 张图像，而评估是在五个子集上进行的：DIS－VD（470）、DIS－TE1（500）、DIS5K－TE2（500）、 DIS－TE3（500）和DIS－TE4（500）。性能使用四个指标进行衡量：S度量－、加权 F 度量、平均 E 度量［11］和平均绝对误差（MAE）。

伪装目标检测。作者在四个数据集上进行了评估：CHAMELEON、CAMO、COD10K 和 NC4K。统一训练集包含 4,040 张图像（其中 3,040 张来自 COD10K， 1,000 张来自 CAMO）。其余的 CHAMELEON（ 76 张）、CAMO（ 250 张）、COD10K（ 2,026张）和 NC4K（ 4,121 张）图像用于测试。作者使用 S－measure（）、自适应 F－measure 、平均 E －measure（）和平均绝对误差（MAE）报告结果。

海洋动物分割。该任务使用了两个数据集：MAS3K，包含1，769张训练图像和1，141张测试图像；以及RMAS，包含 2,514 张训练图像和 500 张测试图像。评估基于五个指标：mloU、 S 度量、加权 F 度量、平均 E 度量和平均绝对误差（MAE）。

遥感显著性检测。作者使用了两个数据集：EORssD，包含 1,400 张训练图像和 600 张测试图像；以及ORS1－4199，包含 2,000 张训练图像和 2,199 张测试图像。评估使用了五个指标： S 度量、平均 F 度量（）、最大 F 度量（）、平均 E 度量（）和平均绝对误差（MAE）。

3.2 实现细节

SAM2－UNeXT在PyTorch中实现，并在配备24 GB内存的NVIDIA RTX 4090 GPU上进行训练。作者使用AdamW优化器，初始学习率为 0.0002 ，并应用余弦学习率衰减来稳定训练。整体损失函数由加权交叉嫡损失和加权IoU损失组成。在训练过程中采用了两种数据增强策略，包括随机水平墥转和垂直翻转。除非另有说明，作者采用SAM2和DINOv2的大版本。SAM2分支的输入分辨率设置为，DINOv2分支的输入分辨率设置为。所有模型在所有任务上均以批量大小为1进行20个epoch的训练。

3.3 与当前最先进方法比较

在本小节中，作者首先分析了跨多个基准的定量结果，随后对二元图像分割进行了定性的视觉比较。

二值图像分割。结果如表1所示，SAM2-UNeXT在第二优方法BiRefNet之上实现了稳定的性能提升。具体而言，在DIS-VD子集上，SAM2-UNeXT将S-measure提升了1.2%。

伪装目标检测。结果如表2所示。与SAM2-UNet相比，新的SAM2-UNeXT在所有指标上均实现了持续改进。例如，在CHAMELEON数据集上，SAM2-UNeXT将S-measure提升了2.8%。

海洋动物分割。结果如表3所示。SAM2-UNeXT在现有方法中显著表现优异。例如，在MAS3K数据集上，SAM2-UNeXT将mIoU提升了5.4%。遥感显著性检测。结果如表4所示。SAM2-UNeXT在两个数据集上均优于所有竞争方法。值得注意的是，在ORSI-4199数据集上，SAM2-UNeXT在S-measure上实现了1.1%的提升。

定性比较。图2展示了在二元图像分割任务上的视觉比较。SAM2-UNeXT在多种场景中表现出更优的分割精度：细粒度的树枝（第1行）、复杂的多目标组合（第2行）、光照变化（第3行）以及具有网格结构和阴影干扰的场景（第4行）。SAM2-UNeXT有效处理曲线边缘、细小结构和微妙的视觉边界，即使在具有挑战性的条件下也能提供更好的分割结果。

3.4 讨论

在本节中，作者以MAS3K作为代表性基准，分析了SAM2-UNeXT的设计选择。

辅助编码器的影响

作者研究了不同辅助编码器设计的影响，如表5所示：

第一行辅助编码器被移除。在这种情况下，模型大致成为SAM2-UNet的高分辨率变体。尽管其性能优于SAM2-UNet的低分辨率版本，但其准确率仍低于带有辅助编码器的配置。

第2行和第3行。作者使用ResNet-101 PVTv2-b5 作为辅助编码器，其参数可训练。结果表明，与不使用辅助编码器的设置相比，改进效果微乎其微，这表明在简单的融合策略下，这些传统 Backbone 网络带来的好处有限。

第4行和第5行。作者将辅助编码器替换为冻结的小型和基础版本的DINOv2。结果表明，较大的变体通常能获得更好的性能。

动态分辨率的影响

作者还探讨了不同分辨率组合的影响，如表6所示：

第一行. SAM2和DINOv2编码器均在统一的低分辨率352×352下运行。这一设置导致在所有测试配置中性能最低，尽管它仍然优于原始的SAM2-UNet Baseline。

第2行。SAM2分支的高分辨率固定为1024×1024，而DINOv2分支的低分辨率降低至224×224。与448×448设置相比，观察到轻微的性能下降，但它仍然优于均匀的352×352情况。

第3行。高分辨率保持在1024×1024，而低分辨率增加到672×672。与448×448设置相比，性能差异可以忽略不计，但推理成本显著增加，使得这种配置不太实用。

4 相关工作

4.1 融合基础模型

近年来，整合不同基础模型已成为一种常见策略。许多视觉语言模型（Vision-Language Models, VLMs）由一个视觉编码器与一个大语言模型（Large Language Model, LLM）配对组成，能够根据不同应用需求进行灵活组合。对于SAM系列，已有若干研究通过整合CLIP来提升语言理解能力。其他研究则聚焦于通过集成预训练视觉编码器（如DINOv2 ）来增强少样本分割能力，以Matcher 为例。与作者研究最相关的是，该研究同样引入了一个辅助DINOv2编码器来构建U型架构。然而，他们的重点在于设计更复杂的解码器结构，例如内容引导注意力机制和小波卷积。

4.2 图像分割

图像分割被视为像素级分类任务，可以广泛分为二值分割、语义分割、实例分割和全景分割等类别。本研究聚焦于二值分割，其中所有前景像素被分配到单一类别，其余像素被视为背景。二值分割是许多重要应用领域的基础，包括二值图像分割、伪装目标检测、海洋动物分割以及遥感显著性检测。现有方法大多倾向于为每种分割场景设计特定的解码器。相比之下，SAM2-UNeXT引入了一个统一框架，该框架能够通过单一模型架构在多个二值分割任务中实现最先进性能。

5 结论

本文介绍了SAM2-UNeXT，一个简单而有效的框架，通过解耦分辨率策略将两个强大的基础模型SAM2和DINOv2进行整合。该设计利用了每个模型的互补特征偏差，从而提升了分割性能。在四个基准数据集上的大量实验验证了该方法的有效性和泛化能力。此外，SAM2-UNeXT具有高度可定制性，非常适合适应各种下游任务。通过调整动态分辨率配置或结合替代的辅助编码器，该框架有望将基于SAM2的模型扩展到此前未充分探索的分割场景。