SAM 家族的好搭档！SAM3-Adapter助其刷新伪装、医疗等四大分割任务榜单- 大数跨境

首页

SAM 家族的好搭档！SAM3-Adapter助其刷新伪装、医疗等四大分割任务榜单

我爱计算机视觉

2025-11-27

116

导读：SAM3+适配器，开启分割新纪元

论文标题: SAM3-Adapter: Efficient Adaptation of SAM3 for Camouflage Object Segmentation, Shadow Detection, and Medical Image Segmentation
作者: Tianrun Chen, Runlong Cao, Xinda Yu, Lanyun Zhu, Chaotao Ding, Deyi Ji, Cheng Chen, Qi Zhu, Chunyan Xu, Papa Mao, Ying Zang
机构: 魔芯（湖州）科技有限公司、浙江大学, 南京理工大学, 湖州大学, 新加坡南洋理工大学
论文地址: https://arxiv.org/abs/2511.19425
项目主页: http://tianrun-chen.github.io/SAM-Adaptor/
代码仓库（1.3K星标）：https://github.com/tianrun-chen/SAM-Adapter-PyTorch

导语

强大的“分割一切”模型SAM（Segment Anything Model）彻底改变了图像分割领域的游戏规则。然而，无论是初代SAM还是其后续者，在处理一些“精细活”时，比如识别藏在环境中的伪装物体、分割医学影像中的微小病灶时，总是显得有些力不从心。

随着更高效、更强大的SAM3问世，研究者们的思路也发生了转变：我们不再需要“修补”模型的短板，而是要思考如何“解锁”其蕴含的全部潜能。

今天，我们要分享的这项工作——SAM3-Adapter，就是一把解锁SAM3潜能的钥匙。它是一个专为SAM3量身打造的高效适配器框架，旨在充分释放其在各种精细化分割任务中的惊人能力。这项工作是基于团队在2023年提出的SAM-Adapter的延续和升级，可以说是“站在巨人的肩膀上，看得更远”。

“适配器”如何解锁SAM3的潜力？

简单来说，SAM3就像一位拥有渊博知识的通才，什么都懂，但对特定领域不够专精。而SAM3-Adapter就像一个“领域专家插件”，它轻量且高效，能够将特定任务的知识（Task-Specific Information）注入到SAM3强大的通用模型中，引导它关注特定任务的关键特征。

整个框架的设计思路非常巧妙。从上方的模型结构图可以看到，SAM3-Adapter通过一个可调的MLP层（）从任务相关信息中生成一个任务提示（Prompt），其过程可以表示为：

我们可以把这个公式分解来看：

：代表输入的任务特定信息。它可以是任何有助于当前任务的特征，比如针对伪装任务的纹理统计特征，或是针对医学影像的某些先验知识。
：一个可学习的线性层。它的作用是从输入信息中“提炼”出与任务最相关的部分，生成初步的提示。
：一种标准的激活函数，用于引入非线性，增强模型的表达能力。
：一个上采样投影层。它负责将提示的维度调整到与SAM3模型内部Transformer特征维度一致，确保两者可以顺利“对接”。
：最终生成的任务提示。它就像一个精准的指令，会被注入到SAM3的对应阶段，引导模型将注意力集中在最关键的图像区域上。

通过这个过程，SAM3-Adapter就如同一位领航员，为SAM3这艘巨轮在特定任务的海洋中指明了方向。

这个生成的提示随后被整合到SAM3骨干网络的Transformer层中，就像给模型一个“小纸条”，告诉它在这次任务中应该重点关注什么。更棒的是，这种设计是可组合的（Composable），意味着我们可以融合多种指导信号，让模型更加“聪明”。

实验效果：不是“略有提升”，而是“全面超越”

那么，这个“适配器”的实际效果如何呢？研究者们在四大极具挑战的分割任务上进行了严苛的测试，结果令人印象深刻。

伪装物体分割 (Camouflaged Object Segmentation)

伪装物体检测是一个经典的难题，因为物体和背景在视觉上几乎融为一体。实验发现，单独的SAM3虽然已经能初步定位到这些“隐藏”的目标，但分割出的边缘模糊，不够精确。

从上面这张在CHAMELEON数据集上的对比图可以直观地看到，SAM、SAM2和SAM3的分割结果都不尽人意。而当SAM3-Adapter介入后，分割结果发生了质的飞跃，生成的掩码（Mask）几乎与真实标签（Ground Truth）完美贴合。

在COD-10K和CAMO这两个更具挑战性的数据集上，SAM3-Adapter同样展现了其强大的能力，无论是藏在树丛中的小鸟，还是融入环境的昆虫，都能被精准地“揪”出来。

阴影检测 (Shadow Detection)

阴影检测同样不简单。SAM和SAM2几乎无法识别阴影，而SAM3虽然能感知到阴影的存在，但边界处理得非常粗糙。

结合了SAM3-Adapter之后，SAM3的潜力被完全激发。如上图所示，它不仅能准确识别阴影区域，还能生成轮廓清晰、边缘锐利的分割结果。在ISTD数据集上，该方法的平衡错误率（BER）达到了1.14，刷新了SOTA纪录。

医学图像分割：息肉与细胞

在对精度要求极为严苛的医学影像领域，SAM3-Adapter的表现同样惊艳。

息肉分割 (Polyp Segmentation) ：结直肠癌的早期诊断严重依赖于息肉的精准分割。SAM3本身能定位到息肉组织，但分割结果不完整，边界模糊。

从上图的定性结果可以看出，SAM3-Adapter引导模型生成了高度准确且完整的分割掩码，精准地勾勒出整个息肉的轮廓。在Kvasir-SEG数据集上，mDice达到了0.906，mIoU达到了0.842，再次创造了新的SOTA。

细胞分割 (Cell Segmentation) ：在密集的显微镜图像中准确分割单个细胞是生物医学研究的关键。在这项任务上，SAM3-Adapter的提升甚至被作者形容为“惊人的（staggering）”。

从上方的F1分数对比表中可以看到，SAM3-Adapter取得了0.7525的F1分数，与之前最好的方法（0.6036）相比，实现了巨大的性能飞跃，充分展示了其在生物医学诊断领域的巨大潜力。

总结

SAM3-Adapter的成功传达了一个清晰的信号：对于像SAM3这样强大的基础模型，未来的研究方向或许不再是“大改模型”，而是通过设计更智能、更高效的“适配器”来解锁和引导其在特定任务上的潜力。

这项工作不仅在伪装、阴影和医疗等多个具有挑战性的分割任务上取得了SOTA的性能，更重要的是，它为如何高效利用大型视觉模型提供了宝贵的思路和范例。

你觉得这种“大模型+小插件”的范式会成为未来的主流吗？欢迎在评论区留下你的看法！

【声明】内容源于网络

我爱计算机视觉

探寻CV新知，发现AI价值

内容 3638

粉丝 0

我爱计算机视觉探寻CV新知，发现AI价值

总阅读13.8k

粉丝0

内容3.6k