这是一篇2025年7月发表于《NPJ Digital Medicine》的最新研究,该团队基于U-Net模型,提出一种改进的医学图像分割模型GH-UNet。该模型结合混合卷积-ViT编码器、多尺度门控注意力(Multi-Scale Gated Attention, MSGA)模块、分组动态门控(Group-wise Dynamic Gating, GDG)模块、多尺度级联编码器,在实现医学图像精准分割的同时,大幅减少计算负担。
论文地址:https://www.nature.com/articles/s41746-025-01829-2
Code:https://github.com/xiachashuanghua/GH-UNet
医学图像典型的高噪声、低对比度、复杂结构及患者的解剖差异,给分割任务带了诸多挑战。U-Net作为图像分割领域的标准架构,其各种变体已进一步提高了分割精度和泛化能力。然而,对长期依赖的难以建模,限制了U-Net系列在复杂场景中的能力。ViT利用自注意力机制来建模全局依赖关系,并捕捉图像中复杂的细节,基于Transformer的各种改进也陆续被提出并用于医学图像分割。然而,由于高昂的计算和内存成本,限制了Transformer系列对高分辨率图像和实时应用程序的可扩展性。为弥补这一差距,出现了多个集成CNN和Transformer的混合架构,如CVT、Rolling-Unet、FSCA-Net等,但是这些模型仍在特征融合和推理成本方面存在挑战。
针对上述不足,本研究提出一种分组混合ViT模型(称为GH-UNet),旨在有效捕捉局部和远程依赖关系,并精确勾画复杂目标的边界,在降低计算复杂度的同时获得先进的性能。
GH-UNet的模型架构图如下图所示,主要通过以下核心模块解决上述难题:
1
混合卷积-ViT编码器
结合CNN的局部特征提取能力与Transformer的全局依赖建模。其中,MSGA模块利用多尺度卷积核,融合局部和全局特征;通道-空间门控(Channel-Spatial Gating, CSG)模块整合通道门控和空间门控,旨在动态调整特征权重。在编码器阶段中,研究主要关注卷积块的改进,旨在增强模型对局部特征和全局背景的敏感性,从而适用医学图像细节的多样性和背景的细微差别。
2
GDG模块
将输入特征图按通道分组,并动态地对每个组应用门控机制,自适应地调整各组输出权重,以增强模型的关注能力。
3
级联编码器
集成多尺度信息,结合动态上采样(DySample)和Haar小波下采样(HWD)技术,优化边界细节的重建。其中,DySample通过动态偏移场预测实现内容感知的上采样,能够动态调整采样区域以与语义边界对齐,同时保留整体形态,使其更适用于精细解剖结构的重建。HWD则凭借优越的多分辨率分析和信息保留能力,能够较好地对图像高频细节和边缘信息等细节进行保留。
4
层级loss函数
GH-UNet采用层级loss计算策略,总loss由最终输出层的损失和三个编码器中间层的损失组成,每个损失项由BCE、Dice和IoU加权组合。
数据集
采用5个公开和1个私人医学图像分割数据集进行评估:ISIC2016(https://challenge.isic-archive.com/data)、Kvasir-SEG(https://datasets.simula.no/kvasir-seg)、ACDC(https://www.creatis.insa-lyon.fr/Challenge/acdc/databases.html)、IDRiD(https://idrid.grand-challenge.org)、Synapse(https://figshare.com/articles/dataset/Synapse_/29073904/1?file=54566462)、BT-Seg(多区域脑肿瘤分割数据集,私人)。
训练策略
采用一块24G显存的NVIDIA 4090 GPU进行训练,优化器为Adam,以2D的数据格式,并采用旋转、裁剪、翻转、锐化、亮度调整、颜色抖动、弹性变换、网格打乱、尺寸调整和归一化等随机增强方式。使用像素准确率(Acc)、平均绝对误差(MAE)、Dice、IoU和HD95来评估模型性能。
对比模型
对比模型包括:基于CNN的模型,如U-Net、U-Net++、Attendence-UNet、PSPNet、DeepLabv3+、SFA、ParNet、ACSNet、nnUNet和Rolling-Unet;基于Transformer的模型,如SwinUNet、nnFormer和MISSFormer;结合CNN和Transformer的混合模型,如ResT、BoTNet、TransUNet、CvT、EMCAD、FSCA-Net、MixFormer和H2 Former(SOTA);接受加权键值(Receptance Weighted Key Value, RWKV)框架模型,如Zig-RiR。
实验结果
(1)定量分析
下表展示了GH-UNet模型与对比模型在ISIC2016数据集上的性能比较,所提模型实现了最佳的MAE、Acc、Dice和IoU数值,并保持最低的计算参数。
在Kvasir-SEG和IDRiD两个数据集上的实验也证明了GH-UNet模型的优越性。
在ACDC数据集上,分别评估了不同模型在左心室(LV)、右心室(RV)、心肌(MYO)三个分割目标上的Dice系数及平均值。在Synapse数据集上,主要使用Dice和HD95两个指标评估不同模型在多器官图像上的分割性能。
在私人数据集上,GH-UNet的总体Dice系数(肿瘤核心+水肿区域)为84.53%,分别比HFormer(83.78%)和nnUNet(64.34%)高0.75%和20.19%。
(2)定性分析
典型分割效果对比如下图所示,表明GH-UNet对细节高度敏感,并在处理复杂场景方面具有强大表现,包括大的形态差异、重叠的边界和微小的目标。
(3)消融实验
此外,研究还设置了一系列消融实验,以验证各个模块和参数设计的合理性。
GH-UNet提出了一个有效、可推广的医学图像分割架构,在不同数据集上的性能均优于几个最先进的模型,展示了其在保持计算效率的同时有效捕获复杂解剖结构的能力。该模型的模块化设计、较高的分割精度和较低的计算负担,使其成为未来在诊断和影像指导治疗中的一种有前景的临床应用工具。
汇智灵曦推出的训练推理一体化平台,集成了多种经典AI模型,内置AI模型商城,为用户提供高效便捷的训练与推理解决方案。用户只需设置输入输出路径并调整参数,即可快速完成模型训练与推理,无论是科研探索还是临床应用,都能轻松上手。平台具备简洁的界面和操作流程,免去复杂的技术要求,帮助用户节省时间、提高效率,是实现AI技术快速落地的理想选择。
点击下方“阅读原文”
立即申请“训练推理一体化平台”试用

