关注上方“公众号”,有福利哦!
小伙伴们好,我是阿旭。专注于人工智能、计算机视觉领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做,也可做不同模型对比实验;需要的可联系(备注来意)。】
《------往期经典推荐------》
一、AI应用系统实战项目
《------正文------》
引言
在计算机视觉领域,图像分割任务长期面临“任务碎片化”难题——通用分割、指代分割、交互式分割等任务往往需要单独模型处理,而X-SAM的出现打破了这一局限。作为首个能将“分割任意事物”拓展到“任意分割”的多模态大语言模型框架,X-SAM不仅能处理文本与视觉两种查询输入,更在7类核心分割任务中实现性能突破。本文将结合可视化结果,详细解释说明X-SAM的各项任务能力。
一、文本查询任务:用语言驱动精准分割
文本查询任务是X-SAM的核心能力之一,只需输入含特定类别、短语或推理指令的文本,模型就能生成对应分割掩码,覆盖通用分割、指代分割、推理分割、GCG分割四大场景,且所有任务均通过<p>标记目标、<SEG>标记输出的统一格式实现标准化。
1. 通用分割:一次完成语义、实例与全景分割
通用分割是图像分割的基础任务,需同时实现“区分类别”(语义分割)与“区分个体”(实例分割),并融合为全景分割结果。从可视化结果来看,X-SAM在COCO2017验证集图像上展现出精准的多维度分割能力:
-
语义分割:能准确识别“人”“自行车”“墙壁”等类别,掩码覆盖完整且无类别混淆,例如将画面中所有行人归为“人”类,所有车辆归为“交通工具”类; -
实例分割:即使同类物体紧密相邻,也能清晰区分个体,如画面中并排的两辆自行车,各自掩码无重叠; -
全景分割:完美融合前两者优势,既标注出“人-1”“人-2”等实例编号,又保留“道路”“天空”等背景类别,实现“像素级全场景理解”。
这一表现得益于X-SAM的双编码器设计——SigLIP2-so400m图像编码器提取全局场景特征,确保类别识别准确性;SAM-L分割编码器提取细粒度特征,保证实例边界的精准度。
2. 指代分割:听懂自然语言的“特指需求”
指代分割要求模型理解自然语言中的指代性描述,如“穿红外套的女人”“背景里戴帽子的男人”,并定位到对应物体。上图展示了X-SAM在RefCOCO验证集上的表现:
-
面对“画面中间完整的摩托车”“左边印着牛仔图案的瓶子”等具体描述,模型能精准锁定目标,掩码与物体边缘完全贴合; -
即使描述包含空间关系(如“背景中的人”)或细节特征(如“顶部的香蕉”),也能避免混淆——例如在包含多个人物的场景中,准确分割出位于背景区域的人物,而非前景人物。
3. 推理分割:解决“需要思考”的复杂查询
推理分割是分割任务中的“高阶挑战”,需模型先理解抽象问题,再推理出对应目标。例如“用来播放视频或音乐的物品”“办公室里用来输入数据的设备”,这类查询不直接提及目标名称,需结合常识推理。从Fig.9的结果来看:
-
X-SAM能准确识别“电视机”“键盘”等目标,即使目标在画面中占比小或被部分遮挡,也能生成完整掩码; -
在“看起来已经赢得比赛的人”这类含主观判断的查询中,模型能结合人物姿态(如高举双手)和场景(如赛场背景)推理出目标,展现出“语言逻辑+视觉特征”的融合能力。
4. GCG分割:描述与分割“同步进行”
GCG(Grounded Conversation Generation)分割要求模型在生成图像描述的同时,为描述中的每个短语生成对应分割掩码,实现“语言描述-像素定位”的实时绑定。上图展示了X-SAM在Open-PSG验证集上的表现:
-
描述“穿黑黄夹克的女人在玩飞盘”时,模型会分别生成“女人”“黑黄夹克”“飞盘”三个掩码,且每个掩码精准对应短语描述的物体; -
描述“黄色双层巴士行驶在街道上”时,不仅能分割出“巴士”和“街道”,还能通过掩码位置关系体现“行驶在”的空间逻辑——巴士掩码位于街道掩码上方,符合现实场景规律。
二、视觉查询任务:用交互提示拓展分割场景
除了文本输入,X-SAM还支持视觉查询输入,通过<region>标记点、涂鸦、框、掩码等交互提示,覆盖交互式分割与VGD分割两大任务,且支持单图像与跨图像场景,极大提升了用户操作的灵活性。
1. 交互式分割:跟着用户“指哪分哪”
交互式分割是人机协作的重要场景,用户通过简单视觉提示(如点击目标中心点、画一条涂鸦),模型就能快速分割出对应物体。上图展示了X-SAM在COCO-Interactive验证集上的四大提示类型表现:
-
点提示:仅点击“猫”的头部,模型就能完整分割出整只猫,掩码覆盖毛发、尾巴等细节,无遗漏; -
涂鸦提示:在“桌子”边缘画一条短线,模型能自动延伸出整个桌子的掩码,即使桌子被书籍部分遮挡,也能准确还原轮廓; -
框提示:用矩形框选中“花瓶”,模型能排除框内的花朵干扰,仅分割出花瓶本体; -
掩码提示:若用户已绘制部分掩码(如“杯子”的一半),模型能自动补全剩余部分,实现“半手动-半自动”高效分割。
2. VGD分割:单图与跨图的“视觉接地分割”


VGD(Visual GrounDed)分割是X-SAM提出的全新任务,要求模型根据视觉提示分割图像中“所有相关实例”,而非单个物体,且支持跨图像场景——即根据图像A的提示,分割图像B中的同类物体。这一任务极大拓展了分割的应用场景,如“根据图1中的猫,分割图2中所有的猫”。
从上图1(单图像VGD)和上图2(跨图像VGD)的结果来看,X-SAM的表现尤为突出:
-
单图像场景:在“点提示某一只狗”时,模型会自动分割出画面中所有狗的实例,包括远处较小的狗;用框提示“一个苹果”时,能分割出所有苹果,即使部分苹果被叶子遮挡; -
跨图像场景:在图像A中用掩码提示“汽车”,模型能在图像B中准确分割出所有汽车,且不受背景差异影响——例如图像A是城市道路场景,图像B是乡村停车场场景,模型仍能精准识别同类目标。
3. 开放词汇分割:分割“没见过的类别”
开放词汇分割是应对“未知类别”的关键任务,要求模型分割训练集中未出现过的类别(如“无人机”“智能手表”)。上图展示了X-SAM在ADE20K验证集上的表现:
-
面对“无人机”“充电桩”等未训练类别,模型能根据文本提示“ 无人机
”准确分割目标,掩码无漏检或误检; -
即使类别包含细分差异(如“电动自行车”与“普通自行车”),也能通过视觉特征区分——例如识别出“电动自行车”的电池部件,与普通自行车的掩码形成明确差异。
三、技术支撑:为何X-SAM能“全场景覆盖”
X-SAM之所以能实现7类任务的统一处理,核心在于三大技术设计:
-
双编码器+双投影器:图像编码器负责全局理解,分割编码器负责细节捕捉,双投影器将视觉特征映射到语言空间,实现“视觉-语言”深度对齐; -
多阶段训练:分割器微调(优化分割解码器)→对齐预训练(对齐视觉与语言特征)→混合微调(端到端适配多任务),确保模型在各任务中均达最优; -
统一分割解码器:替换SAM原解码器为Mask2Former设计,支持多尺度特征输入与多掩码同时预测,解决了“一次分割多物体”的核心难题。
从可视化结果到量化指标,X-SAM证明了“统一分割框架”的可行性——无需为不同任务单独设计模型,仅通过统一输入格式与架构,就能实现“文本+视觉”双驱动、“单图+跨图”全场景的分割能力。未来随着与SAM2的融合,X-SAM还将拓展到视频分割领域,进一步推动“任意分割”范式的落地。
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
end
福利!!!本公众号为粉丝精心整理了超级全面的python学习、算法、大数据、人工智能等重磅干货资源,关注公众号即可免费领取!无套路!
看到这里,如果你喜欢这篇文章的话,
点击下方【在看】【转发】就是对我最大支持!
如果觉得有用就点个“赞”呗

