
-
论文标题: SAM3-Adapter: Efficient Adaptation of SAM3 for Camouflage Object Segmentation, Shadow Detection, and Medical Image Segmentation -
作者: Tianrun Chen, Runlong Cao, Xinda Yu, Lanyun Zhu, Chaotao Ding, Deyi Ji, Cheng Chen, Qi Zhu, Chunyan Xu, Papa Mao, Ying Zang -
机构: 魔芯(湖州)科技有限公司、浙江大学, 南京理工大学, 湖州大学, 新加坡南洋理工大学 -
论文地址: https://arxiv.org/abs/2511.19425 -
项目主页: http://tianrun-chen.github.io/SAM-Adaptor/ -
代码仓库(1.3K星标):https://github.com/tianrun-chen/SAM-Adapter-PyTorch
导语
强大的“分割一切”模型SAM(Segment Anything Model)彻底改变了图像分割领域的游戏规则。然而,无论是初代SAM还是其后续者,在处理一些“精细活”时,比如识别藏在环境中的伪装物体、分割医学影像中的微小病灶时,总是显得有些力不从心。
随着更高效、更强大的SAM3问世,研究者们的思路也发生了转变:我们不再需要“修补”模型的短板,而是要思考如何“解锁”其蕴含的全部潜能。
今天,我们要分享的这项工作——SAM3-Adapter,就是一把解锁SAM3潜能的钥匙。它是一个专为SAM3量身打造的高效适配器框架,旨在充分释放其在各种精细化分割任务中的惊人能力。这项工作是基于团队在2023年提出的SAM-Adapter的延续和升级,可以说是“站在巨人的肩膀上,看得更远”。
“适配器”如何解锁SAM3的潜力?
简单来说,SAM3就像一位拥有渊博知识的通才,什么都懂,但对特定领域不够专精。而SAM3-Adapter就像一个“领域专家插件”,它轻量且高效,能够将特定任务的知识(Task-Specific Information)注入到SAM3强大的通用模型中,引导它关注特定任务的关键特征。
整个框架的设计思路非常巧妙。从上方的模型结构图可以看到,SAM3-Adapter通过一个可调的MLP层( )从任务相关信息 中生成一个任务提示(Prompt) ,其过程可以表示为:
我们可以把这个公式分解来看:
-
:代表输入的任务特定信息。它可以是任何有助于当前任务的特征,比如针对伪装任务的纹理统计特征,或是针对医学影像的某些先验知识。 -
:一个可学习的线性层。它的作用是从输入信息 中“提炼”出与任务最相关的部分,生成初步的提示。 -
:一种标准的激活函数,用于引入非线性,增强模型的表达能力。 -
:一个上采样投影层。它负责将提示的维度调整到与SAM3模型内部Transformer特征维度一致,确保两者可以顺利“对接”。 -
:最终生成的任务提示。它就像一个精准的指令,会被注入到SAM3的对应阶段,引导模型将注意力集中在最关键的图像区域上。
通过这个过程,SAM3-Adapter就如同一位领航员,为SAM3这艘巨轮在特定任务的海洋中指明了方向。
这个生成的提示 随后被整合到SAM3骨干网络的Transformer层中,就像给模型一个“小纸条”,告诉它在这次任务中应该重点关注什么。更棒的是,这种设计是可组合的(Composable),意味着我们可以融合多种指导信号,让模型更加“聪明”。
实验效果:不是“略有提升”,而是“全面超越”
那么,这个“适配器”的实际效果如何呢?研究者们在四大极具挑战的分割任务上进行了严苛的测试,结果令人印象深刻。
伪装物体分割 (Camouflaged Object Segmentation)
伪装物体检测是一个经典的难题,因为物体和背景在视觉上几乎融为一体。实验发现,单独的SAM3虽然已经能初步定位到这些“隐藏”的目标,但分割出的边缘模糊,不够精确。
从上面这张在CHAMELEON数据集上的对比图可以直观地看到,SAM、SAM2和SAM3的分割结果都不尽人意。而当SAM3-Adapter介入后,分割结果发生了质的飞跃,生成的掩码(Mask)几乎与真实标签(Ground Truth)完美贴合。


在COD-10K和CAMO这两个更具挑战性的数据集上,SAM3-Adapter同样展现了其强大的能力,无论是藏在树丛中的小鸟,还是融入环境的昆虫,都能被精准地“揪”出来。
阴影检测 (Shadow Detection)
阴影检测同样不简单。SAM和SAM2几乎无法识别阴影,而SAM3虽然能感知到阴影的存在,但边界处理得非常粗糙。
结合了SAM3-Adapter之后,SAM3的潜力被完全激发。如上图所示,它不仅能准确识别阴影区域,还能生成轮廓清晰、边缘锐利的分割结果。在ISTD数据集上,该方法的平衡错误率(BER)达到了1.14,刷新了SOTA纪录。
医学图像分割:息肉与细胞
在对精度要求极为严苛的医学影像领域,SAM3-Adapter的表现同样惊艳。
息肉分割 (Polyp Segmentation) :结直肠癌的早期诊断严重依赖于息肉的精准分割。SAM3本身能定位到息肉组织,但分割结果不完整,边界模糊。
从上图的定性结果可以看出,SAM3-Adapter引导模型生成了高度准确且完整的分割掩码,精准地勾勒出整个息肉的轮廓。在Kvasir-SEG数据集上,mDice达到了0.906,mIoU达到了0.842,再次创造了新的SOTA。
细胞分割 (Cell Segmentation) :在密集的显微镜图像中准确分割单个细胞是生物医学研究的关键。在这项任务上,SAM3-Adapter的提升甚至被作者形容为“惊人的(staggering)”。
从上方的F1分数对比表中可以看到,SAM3-Adapter取得了0.7525的F1分数,与之前最好的方法(0.6036)相比,实现了巨大的性能飞跃,充分展示了其在生物医学诊断领域的巨大潜力。
总结
SAM3-Adapter的成功传达了一个清晰的信号:对于像SAM3这样强大的基础模型,未来的研究方向或许不再是“大改模型”,而是通过设计更智能、更高效的“适配器”来解锁和引导其在特定任务上的潜力。
这项工作不仅在伪装、阴影和医疗等多个具有挑战性的分割任务上取得了SOTA的性能,更重要的是,它为如何高效利用大型视觉模型提供了宝贵的思路和范例。
你觉得这种“大模型+小插件”的范式会成为未来的主流吗?欢迎在评论区留下你的看法!

