大数跨境
0
0

Ark+:用于胸部X光诊断的AI基础模型

Ark+:用于胸部X光诊断的AI基础模型 汇智灵曦
2025-12-05
1
导读:本文介绍了一个用于胸部X光检查(CXR)的基础模型(Ark+)。Ark+不仅扩展了诊断范围,还能适应不断变化的诊断需求,并从少量样本中学习罕见病症,同时有效解决数据偏差和长尾分布,支持联邦学习以保护患


引言


这是一篇2025年6月发表于《Nature》的最新研究,该研究开发了一个用于胸部X光检查(CXR)的基础模型(Ark+),通过循环积累和重用多个数据集中不同专家标签的知识进行预训练,在诊断胸部疾病方面表现出了卓越的能力。Ark+不仅扩展了诊断范围,还能适应不断变化的诊断需求,并从少量样本中学习罕见病症,同时有效解决数据偏差和长尾分布,支持联邦学习以保护患者隐私。


Paper:https://www.nature.com/articles/s41586-025-09079-8


Code:https://github.com/jlianglab/Ark


研究背景


CXR是最常进行的放射学检查,然而,由于数据匮乏和数据源偏差,传统深度学习模型存在诊断范围有限、泛化能力不足、适应性差、鲁棒性低和可扩展性弱等问题。基础模型是在大型数据集上训练的一种变革性深度学习方法,在包括诊断影像在内的各种应用中提供优异性能。然而,高性能的基础模型(如CXR-FM、ELIXR等)并非完全开放,这限制了研究人员和开发者在现有工作基础上进行创新。本研究提出一个完全开放、强大且鲁棒的基础模型,通过聚合众多(大型或小型)公共数据集并选择使用联邦私有数据来训练,使模型完全对公众开放。开放基础模型可以持续改进和适应,通过公共访问和开放贡献,研究人员可以迭代优化和增强这些模型,从而确保模型与最新医学知识和进展保持同步。


研究内容


针对上述背景,该研究介绍了一种完全开放的胸部X光基础模型Ark+,该模型通过循环积累和重用来自六个公开数据集中嵌入的异构专家标签进行预训练(图1a)。Ark+基于之前的工作Ark,并提供了几项改进:使用Swin Transformer Large(Swin-Large)作为更大的主干模型、将图像输入分辨率提高到768×768,并重新设计了数据增强方法,使教师模型能够接收调整尺寸后的原始图像,而非采用随机裁剪。


Ark+包含三个预训练组件:编码器、投影器和多任务头,所有这些组件都可公开获取,并可通过微调(Fine-tuning)、线性探测(Linear-probing)或零样本迁移(Zero-shot transfer)应用于各种临床任务(图1b)。微调包括重新训练整个网络,包括主干编码器和线性分类器。这个过程利用了模型的全部判别能力,使其能够全面适应目标任务。而线性探测则仅针对在预训练主干提取的冻结特征之上训练一个线性分类器。这种方法有效地将模型学到的知识应用于目标任务,有效检验了模型特征的质量。零样本迁移则直接使用该模型诊断其在预训练期间未见过的数据集中的疾病。这种方法测试了模型将其所学知识泛化到新数据集的能力,而无需进一步训练或接触这些数据集中的特定样本。



01


模型架构


Ark+基于教师-学生框架,并增加了多任务头,每个头对应一个特定任务,采用循环预训练来迭代积累和重用知识。在每个迭代中,学生模型通过任务特定头依次扫描数据集(任务)一个epoch,从专家标注中学习。学生积累的知识通过指数移动平均(EMA)积累到教师中,并重用以帮助学生从下一个数据集的专家标注中积累更多知识。为了加强学生和教师之间的反馈循环,在编码器之后引入投影器,通过一致性损失将表示映射到相同的特征空间。投影表示还作为模型评估中线性探测的嵌入。


与之前Ark的设计不同,Ark+向教师模型提供调整大小的原始图像,而不是使用随机裁剪。数据增强的更新确保教师为计算一致性损失提供一致且稳定的监督信号,从而加速训练并提高性能。



02


数据来源


Ark+使用来自六个公共数据集的704,363张胸部X光图像进行预训练,这些数据集收集自全球六个不同机构并由其专家标注:



此外,本研究还采用10个数据集对Ark+进行评估,其中4个数据集用于内部评估,6个数据集用于外部评估:



具体在以下几个场景进行了评估:


  • 常见胸部疾病诊断(在ChestX-ray14数据集上评估14种常见胸部疾病的诊断性能);

  • 适应演进的诊断需求(在VinDr-CXR数据集上评估模型对预训练时未使用的22种局部病灶标签的适应能力);

  • 从少量样本中学习罕见病(在MIMIC-II的CXR-LT数据子集上进行少样本学习,评估对皮下气肿、主动脉迂曲和气腹等罕见病的诊断能力);

  • 处理长尾分布的胸部疾病(在ChestDR这一具有长尾分布特征的数据集上评估19种胸部疾病的诊断性能);

  • 无训练迁移至新诊断场景(在四个未见过的数据集SIIM-ACR、NODE21、Mendeley-V2、TBX-11K上进行零样本迁移,评估对肺炎、结节、小儿肺炎和肺结核的检测能力);

  • 性别偏倚耐受性(在CheXpert数据集上使用性别专属的训练集进行评估);

  • 响应新发疾病(使用COVIDxCXR-3数据集评估对COVID-19的诊断能力,并通过增量预训练得到Ark++covid模型);

  • 隐私保护与分布式预训练(模拟联邦学习场景,评估其在保护隐私的同时处理异构标注的能力)。


03


模型训练


Ark+使用Swin-Large作为骨干网络,输入分辨率为768×768。教师和学生编码器使用在ImageNet上训练的官方发布权重进行初始化,投影器和多任务头随机初始化。学生模型使用分类损失和一致性损失进行训练。分类损失根据每个数据集中的标签量身定制,使用二元交叉熵用于二元/多标签任务,交叉熵用于多类任务。一致性损失使用均方误差进行优化。


训练使用随机梯度下降优化器,初始学习率为0.3,批量大小为50,在四个Nvidia A100 GPU(每个80 GB内存)上进行。图像增强包括随机裁剪和旋转,以及亮度、对比度和伽马分布的变化。模型预训练50个epoch,迭代所有数据集50次。预训练后,教师模型通过微调、线性探测和零样本转移部署用于临床目标任务。


实验结果





模型对比


Ark+与9个大规模预训练模型的比较概述:






主要研究结果


1.常见胸部疾病的诊断性能


对六个大型预训练模型在诊断14种胸部疾病方面进行了比较,这些模型通过微调(实线)和线性探测(虚线)的方式在ChestX-ray14的保留测试数据上进行了评估。


如图a所示,对于每个模型,绘制了五次运行的平均AUC分数的平行坐标图,以展示模型的相对性能。所有14种疾病的平均AUC分数显示在第二个y轴上,以突出整体性能。Ark+在两种设置中均表现最佳,突显了其作为开放基础模型的优势。通过监督学习预训练的Ark+和CXR-FM显著优于自监督模型(RAD-DINO、MIM-CXR和CheSS),强调了专家知识的价值。微调始终优于线性探测,突出了与基础模型相关的开放性对于微调的重要性。图b和c展示了Ark+在扩展诊断能力及纠正专家可能的误诊方面的表现。对于Ark+与ChestX-ray14专家标签不一致的病例,由一位拥有30年经验的梅奥诊所资深放射科医生进行了复查。ChestX-ray14正式发布的标签、Ark+的诊断结果以及医生的记录展示在右侧。图b官方标签显示该病例无异常,但Ark+诊断为肺不张,这一预测被医生确认为正确。图c尽管官方标签显示为“水肿”,但Ark+显示无水肿迹象,并根据CheXpert和VinDr-CXR头部的诊断确认无异常。这一评估与医生的意见一致,表明Ark+能够容忍ChestX-ray14专家的过度诊断。



2.适应不断变化的诊断需求及罕见疾病检测的少样本学习能力


通过在VinDr-CXR的六个全局标签和22个局部标签上进行线性探测,评估Ark+对演变诊断任务的适应性。这六个全局标签在预训练Ark+时包含在VinDr-CXR中,而22个局部标签则被排除在外。对Ark+和CXR-FM进行了十次独立实验,并在保留的测试数据上评估了性能。条形图的中心表示平均AUC分数,误差条表示标准差。


如图a所示,Ark+在全局、局部以及所有标签上的表现均显著优于CXR-FM,如双侧独立t检验的P值所示。如图b和c所示,对于各个全局(b)和局部标签(c)的表现表明,Ark+在所有六个全局标签和13个局部标签上均显著优于CXR-FM。结果表明,Ark+能够适应具有演变临床需求的复杂诊断任务,即使这些任务并非其预训练内容。如图d所示,使用双向少样本学习(无发现与每种罕见疾病)评估Ark+在检测罕见疾病(皮下气肿、主动脉迂曲和气腹)时的适应性和鲁棒性。结果表明,Ark+仅使用少量标记样本即可诊断罕见疾病,展现出其适应能力。



3.长尾胸部疾病的诊断性能


使用未见数据集ChestDR评估了六个预训练模型在诊断19种具有长尾分布的胸部疾病方面的表现。每个模型和设置进行了十次独立实验。条形图的中心表示平均AUC分数,误差条表示标准差。


图a展示了使用线性探测对十个头部类别(head classes)的性能表现,图b展示了使用线性探测对九个尾部类别(tail classes)的性能表现。结果表明,Ark+在16种疾病上的表现优于其他模型,仅在主动脉钙化和肺纹理增多方面落后于CXR-FM,在膈肌抬高方面落后于RAD-DINO。图c表示了Ark+和CXR-FM在19种疾病上针对不同比例训练数据的表现。结果表明,Ark+展现出更高的标签效率,尤其是在数据量减少的情况下优于CXR-FM。在有限数据的情况下,Ark+使用线性探测表现更好,但随着数据量的增加,微调超过了线性探测。



4.在未训练的新环境下常见胸部疾病的识别表现


通过在四个未见数据集(SIIM-ACR、NODE21、Mendeley-V2和TBX-11K)上进行零样本迁移,评估了Ark+的泛化能力和鲁棒性,并针对四种已见疾病(气胸、结节、肺炎和结核病)进行了测试。尽管这四个数据集并未包含在Ark+的预训练中,但在其预训练过程中,Ark+已在其他数据集中见过这四种疾病:气胸出现在CheXpert中,结节出现在ChestX-ray14中,肺炎和结核病出现在VinDr-CXR中。因此,直接从其预训练头部获取了Ark+对这四种疾病的预测,而无需进一步训练,这种场景被称为零样本迁移。


为了进行比较,还对TorchXRayVision中使用多个数据集训练的两个监督模型(XRV-DenseNet和XRV-ResNet)以及两个图像-文本预训练模型(KAD和ELIXR)在相同条件下进行了评估。



结论


Ark+作为一个完全开放的、应用于胸部X光片分析的基础模型,通过创新的周期性知识累积和重用策略,在六个公开数据集上进行了预训练。研究通过八个临床场景的广泛评估,证明了Ark+在诊断胸部疾病方面具有卓越的泛化性、适应性、鲁棒性、可扩展性,并且其整体性能优于其他九个大型基础模型。Ark+不仅为胸部X光片分析提供了坚实的基础,其核心理念和方法也有望扩展到医学影像乃至更广泛的科学领域。

【声明】内容源于网络
0
0
汇智灵曦
汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
内容 31
粉丝 0
汇智灵曦 汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
总阅读22
粉丝0
内容31