重磅发布！多模态大模型X-SAM：从 “分割万物” 到 “任意分割”，实现全场景图像分割统一【附论文与源码】



重磅发布！多模态大模型X-SAM：从 “分割万物” 到 “任意分割”，实现全场景图像分割统一【附论文与源码】

阿旭算法与机器学习

2025-11-15

导读：突破分割边界！多模态大模型X-SAM：从 “分割万物” 到 “任意分割”，实现全场景图像分割统一

关注上方“公众号”，有福利哦！

小伙伴们好，我是阿旭。专注于人工智能、计算机视觉领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做，也可做不同模型对比实验；需要的可联系（备注来意）。】

《------往期经典推荐------》

一、AI应用系统实战项目

项目名称	项目名称
1.人脸识别与管理系统	2.车牌识别与管理系统
3.手势识别系统	4.人脸面部活体检测
5.YOLOv8自动标注	6.人脸表情识别系统
7.行人跌倒检测系统	8.PCB板缺陷检测
9.安全帽检测系统	10.生活垃圾分类检测
11.火焰烟雾检测系统	12.路面坑洞检测系统
13.钢材表面缺陷检测	14.102种犬类检测系统
15.面部口罩检测系统	16.西红柿成熟度检测
17.血细胞检测计数	18.舰船分类检测系统
19.吸烟行为检测	20.水稻害虫检测识别
21.车辆行人检测计数	22.小麦害虫检测识别
23.玉米害虫检测识别	24.200种鸟类检测识别
25.交通标志检测识别‍	26.苹果病害识别
27.肺炎诊断系统‍‍	28.100种中草药识别
29.102种花卉识别	30.100种蝴蝶识别
31.车辆行人追踪系统	32.水稻病害识别
33.车牌检测识别系统	34.草莓病害检测分割
35.复杂环境船舶检测	36.裂缝检测分析系统
37.田间杂草检测系统	38.葡萄病害识别
39.路面坑洞检测分割	40.遥感地面物体检测
41.无人机视角检测	42.木薯病害识别预防
43.野火烟雾检测‍	44.脑肿瘤检测‍‍
45.玉米病害检测	46.橙子病害识别
47.车辆追踪计数	48.行人追踪计数
49.反光衣检测预警	50.人员闯入报警
51.高密度人脸检测	52.肾结石检测
53.水果检测识别‍	54.蔬菜检测识别
55.水果质量检测	56.非机动车头盔检测
57.螺栓螺母检测	58.焊缝缺陷检测
59.金属品瑕疵检测	60.链条缺陷检测
61.条形码检测识别	62.交通信号灯检测
63.草莓成熟度检测	64.水下海生物检测
65.交通事故检测	66.安检危险品检测
67.农作物检测识别	68.危险驾驶行为检测
69.维修工具检测	70.建筑墙面损伤检测‍‍
71.煤矿传送带异物检测	72.老鼠智能检测
73.水面垃圾检测‍	74.遥感视角船只检测
75.胃肠道息肉检测	76.心脏间隔壁分割
77.半导体芯片缺陷检测	78.视网膜疾病诊断
79.运动鞋品牌识别	80.X光骨折检测
81.遥感视角农田分割	82.电瓶车进电梯检测
83.遥感视角房屋分割	84.CT肺结节检测
85.舌苔舌象检测诊断	86.蛀牙检测识别
87.工业压力表智能读数	88.肝脏肿瘤检测分割
89.脑肿瘤检测分割	90.甲状腺结节分割

《------正文------》

一、研究背景

现有模型局限

大语言模型（LLMs）：具备强大的通用知识表征能力，但在像素级感知理解上存在固有缺陷，无法直接处理图像分割等需像素级分析的任务。
分割任意事物模型（SAM）：虽在视觉提示驱动的图像分割领域有显著进展，但存在多掩码预测能力弱、类别特异性分割表现不足、无法整合所有分割任务于统一架构等问题。
现有多模态大语言模型（MLLMs）：多局限于生成文本输出，难以应对图像分割这类需像素级理解的视觉任务，且多数相关研究仍局限于特定任务，缺乏通用性。

研究目标：构建一个统一的多模态大语言模型框架X-SAM，突破现有模型限制，将分割范式从“分割任意事物”拓展到“任意分割”，实现对多种图像分割任务的统一处理。

二、核心创新点

统一分割框架：提出首个能整合所有图像分割任务的多模态大语言模型架构，将通用分割、指代分割、开放词汇分割等多种任务转化为标准化分割格式，支持文本查询与视觉查询两种输入类型。
新分割任务：视觉接地（VGD）分割：通过交互式视觉提示（如点、涂鸦、框、掩码）分割图像中所有实例对象，为MLLMs引入视觉接地模态，增强其像素级可解释性，且支持单图像与跨图像场景。
多阶段统一训练策略：设计三阶段训练流程，解决多源数据训练适配问题，具体包括：

分割器微调阶段：在COCO-Panoptic数据集上训练分割器，优化分割解码器以实现单次前向传播分割所有对象，损失函数为分类损失、掩码损失与骰子损失之和。
对齐预训练阶段：在LLaVA-558K数据集上训练双投影器，使视觉特征与LLM的文本嵌入对齐，采用自回归损失函数。
混合微调阶段：在混合数据集（含图像对话与多种分割数据集）上进行端到端训练，对话任务用自回归损失，分割任务结合自回归损失与分割损失。

双编码器与双投影器设计

双编码器：图像编码器（采用SigLIP2-so400m）提取全局图像特征，助力图像理解；分割编码器（采用SAM-L）提取细粒度特征，支撑精准分割。
双投影器：通过MLP投影器将图像特征与处理后的分割特征（经像素洗牌操作降维）映射到语言嵌入空间，再与文本嵌入拼接输入LLM。

三、模型架构

X-SAM整体架构包含五大核心模块，各模块协同实现多模态输入处理与统一分割输出，具体结构如下：

双编码器

图像编码器：采用SigLIP2-so400m，提取全局图像特征(Z_v)，用于整体图像理解。
分割编码器：采用SAM-L，提取细粒度图像特征(Z_s)，为精准分割提供细节支撑。

双投影器

对分割编码器输出的大尺寸特征，先通过像素洗牌操作降维，再经MLP投影器(w_s)映射到语言嵌入空间(H_s)。
图像编码器特征直接经MLP投影器(w_i)映射到语言嵌入空间(H_v)，最终拼接(H_v)、(H_s)与文本嵌入输入LLM。

分割连接器：通过像素洗牌操作实现特征的尺度转换，将分割编码器的单尺度（1/16）特征转化为多尺度（1/8、1/16、1/32）特征，为分割解码器提供丰富的尺度信息。
分割解码器：替换SAM原解码器，借鉴Mask2Former设计，结合LLM输出的令牌嵌入、多尺度分割特征与掩码查询令牌，预测掩码及类别概率，同时引入潜在背景嵌入统一处理所有分割任务的“忽略”类别。
大语言模型（LLM）：采用Phi-3-mini-4k-instruct，负责处理文本指令与视觉特征的融合理解，生成语言响应并输出令牌触发分割结果。

四、实验结果

实验设置

数据集：涵盖分割器微调（COCO-Panoptic）、对齐预训练（LLaVA-558K）、混合微调（LLaVA-1.5、COCO-Panoptic、COCO-VGD等）三大类，共涉及超20个分割数据集，其中COCO-VGD为新增VGD分割数据集。
评估指标：通用分割与开放词汇分割用PQ、mIoU、mAP；指代分割与推理分割用cIoU、gIoU；GCG分割用METEOR、CIDEr、AP50、mIoU；VGD分割用AP、AP50等。
实现细节：基于XTuner代码库，使用16张A100 GPU训练，三阶段训练的 batch size、学习率、训练轮次等参数分别优化（如分割器微调batch size=64，学习率1e-5~1e-4，共36轮）。

核心性能表现：X-SAM在7类分割任务中均实现当前最优（SOTA）性能，部分关键结果如下：

指代分割：在RefCOCO、RefCOCO+、RefCOCOg验证集上，分别比PSALM高1.5%、5.1%、10.0% cIoU；比Sa2VA-8B（更大模型）分别高3.5%、1.8%、5.1% cIoU。
GCG分割：Val集上METEOR 15.4、CIDEr 46.3、AP50 33.2、mIoU 69.4，比GLaMM高0.2% METEOR、3.2% CIDEr，比OMG-LLaVA高3.3% AP、3.9% mIoU。
VGD分割：在点、涂鸦、框、掩码四种视觉提示下，AP分别达47.9、48.7、49.5、49.7，远超PSALM（最高仅5.8 AP50）。
开放词汇分割：A150-OV数据集上PQ 20.9、AP 16.2、mIoU 28.8，优于ODISE（PQ 22.6但AP 14.4）与PSALM（PQ 13.7）。

消融实验验证

混合微调：使A150-OV的AP提升6.0%、Reason-Val的gIoU提升8.9%，证明其对跨任务泛化能力的增强作用。
双编码器：采用SAM分割编码器时，GCG-Val的mIoU提升4.6%、COCO-VGD的AP提升7.2%，优于Swin编码器。
多阶段训练：加入分割器微调（S1）使COCO-Pan的PQ提升9.3%，加入对齐预训练（S2）使对话任务准确率提升2.1%。
数据集平衡重采样：当超参数t=0.1时，推理分割gIoU从44.1%提升至56.6%，整体性能最优。

五、局限性与未来工作

局限性

分割数据集与对话数据集的联合训练会对部分分割任务（如COCO-Pan）性能产生轻微负面影响（PQ下降0.8%），需优化数据集混合策略。
模型在部分任务（如推理分割的cIoU）上未达绝对最优，统一模型的任务适配性仍需提升。

未来方向

整合SAM2模型，将X-SAM的应用场景从图像分割拓展到视频分割。
把VGD分割任务延伸至视频领域，引入视觉接地的时序信息，开发视频级视觉接地分割任务。

六、其他

代码开源：https://github.com/wanghao9610/X-SAM
论文地址：https://arxiv.org/abs/2508.04655
模型参数：总参数量约5B，兼顾性能与部署效率。
适用场景：涵盖通用分割、指代分割、推理分割、GCG分割、交互式分割、VGD分割等，可应用于图像编辑、视觉问答、场景理解等计算机视觉领域。

好了，这篇文章就介绍到这里，喜欢的小伙伴感谢给点个赞和关注，更多精彩内容持续更新~~ 关于本篇文章大家有任何建议或意见，欢迎在评论区留言交流！

   
    
     
      
       end
      
      
       

      
     
    
   
   
    
     
      
       
        

       
      
     
    
   
   
    
   
   
    

   
   
    福利！！！本公众号为粉丝精心整理了超级全面的python学习、算法、大数据、人工智能等重磅干货资源，关注公众号即可免费领取！无套路！

看到这里，如果你喜欢这篇文章的话，

点击下方【在看】【转发】就是对我最大支持！

如果觉得有用就点个“赞”呗

【声明】内容源于网络

阿旭算法与机器学习

专注于计算机视觉，AI等技术研究。目标检测，图像分类，图像分割，目标跟踪等项目都可做，咨询加微A_XU_AI

内容 435

粉丝 0

阿旭算法与机器学习专注于计算机视觉，AI等技术研究。目标检测，图像分类，图像分割，目标跟踪等项目都可做，咨询加微A_XU_AI

总阅读1.0k

粉丝0

内容435