极市导读
该工作集成了 14 个器官分割和肿瘤检测相关公开数据集,包括 3,410 个 CT 扫描,其中包含 25 个部分注释的器官和 6 个肿瘤(已开源)。并提出了一个提出了用于腹部器官分割和肿瘤检测的 CLIP 驱动通用模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文链接:https://arxiv.org/abs/2301.00785
源码链接:https://github.com/ljwztc/CLIP-Driven-Universal-Model
(这个库的awesome.md里精心收集了Medical Universal Models (UMs)和Medical Foundation Models的工作,正在持续更新中,欢迎大家在issue里进行文章和数据集的补充。)
1. 导读
越来越多的公共数据集显示出对自动器官分割和肿瘤检测的显着影响。然而,这些数据集往往存在两个问题。一是这些数据集的规模通常较小。这是因为受限于时间、资金等成本,扫描出来的CT图像数量较少,再加上不同研究机构对图像的标注不同,小部分数据才包含专家标注的肿瘤数据,因此在这种情况下,很难构建出一个强大的、鲁棒性强大的AI模型。二是存在部分标记问题,即数据集的某一些数据项拥有注释,但是其他却没有。如果使用这种公开的数据集训练模型,很有可能会严重限制模型的表现,最终影响多器官分割和肿瘤检测的有效性。
为了解决这个挑战,原文作者们集成了 14 个公开可用的数据集,包括 3,410 个 CT 扫描,其中包含 25 个部分注释的器官和 6 个肿瘤。而为了解决组装数据集中存在的标签不一致(label inconsistency)和标签正交性(label orthogonality)的问题,作者们提出了一个模型:CLIP-driven Universal Model,结合了文本嵌入,并采用带有二进制分割掩码的Masked反向传播机制。在数据预处理上,作者们采用修订后的类标签,为每个类标签生成二进制的分割掩码。在架构设计上,作者们使用CLIP生成特定的编码,取代传统的one-hot和few-hot编码,使得模型考虑了肿瘤和器官的关系(如图1所示)。
该模型能对25个器官进行出色的分割,并在检测6种肿瘤上显示出先进的性能,甚至可以推广到不同研究机构扫描出来的CT图像。实验结果证明,CLIP-driven Universal Model有6大优势:
(1) 该模型实现了对腹部器官的高性能分割。
(2) 在保持高灵敏度的同时,该模型比现有模型预测出更少的Fasle Positive。
(3) 在计算上,该模型比使用特定数据集训练出来的模型更加有效,且测试速度提高了六倍。
(4) 该模型可以拓展到各种backbone,如基于CNN和Transformer的网络。
(5) 来自不同医院的CT图像无需额外的调整和适应,即可通过该模型实现器官分割和肿瘤检测。
(6) 该模型是一个适用于众多下游任务的有效基础模型,在跨多种疾病、器官和数据集的任务上显示出强大的可移植性。
2. 实现方案
在文本分支中,文章首先根据不同的类别,去生成不同的提示(prompt),然后将其输入到CLIP的text encoder中,得到针对不同分类的编码 。接着从vision encoder与decoder之间的网络结构中,采用全局平均池化的方法提取图像的特征f,并与 合并,输入到多层感知机(MLP),即text-based controller,生成参数 。
而在视觉分支中,文章首先使用各项同性间距(isotropic spacing)和均匀强度标度(uniformed intensity scale)对 CT 扫描进行预处理,以减少各种数据集之间的域差距。这种标准化的处理十分有必要,因为CT 扫描在图像质量和技术显示方面可能存在显着差异,如不同的采集参数、对比度,以及强度变化等。为了处理从vision encoder处理的图像特征F,本文使用了卷积核为1×1×1的三层卷积层,作为文本驱动的分割器(text-driven segmentor),计算对应的分类类别。
其中*表示卷积计算。
为了解决所得标签不一致的问题,作者们提出了Masked反向传播机制(Masked back-propagation)。这项机制采用了BCE损失函数,并在更新之前mask不在规定类别范围的类别,而仅仅将准确的监督反向传播,去更新整个框架,解决了部分标签问题。
3. 实验与结果
作者们采用了自组建的数据集进行训练,其中共有14个公开数据集的数据作为训练集,其余2个公开数据集和1个私有数据集被用于测试。在评价指标上,Dice相似系数(DSC)和归一化表面距离 (NSD)被用于评估器官/肿瘤的分割,灵敏度(Sensitivity)和特异度(Specificity)被用于评估肿瘤检测。
3.1 MSD 和 BTCV 上的器官分割
作者们在 Medical Segmentation Decathlon (MSD) 和 Beyond The Cranial Vault (BTCV) 中提供排名第一的解决方案,以相当大的优势超过亚军。Table 2展示了Universal Model与其他方案,在多种任务中在官方测试集上的详细比较。Table 3展示了Universal Model在BTCV上进行5折验证集的结果,并与其他方法进行了比较。与Swin UNETR相比,本模型的性能至少提高了3.5%。
3.2 与人类专家的对比
手工标注通常具有不同标注个体间的标签偏差,特别是在分割任务中,一些器官的边界是模糊和模糊的。为了衡量Universal Model预测结果与人类专家手动标注的质量,作者们评估了模型预测的伪标签和由人类专家进行的手动注释两两之间的Dice值。结果发现,在六个器官上(脾,肝,肾,胃和胰腺),模型与人类专家之间的Dice值比人类专家之间的Dice值要更高,且方差更小。
3.3 在5个数据集上进行肿瘤检测
由于DSC仅在有肿瘤的异常CT图像上计算,当遇到没有肿瘤的正常CT图像时,模型可能会产生大量False Positive。因此,文章作者使用了患者级别的灵敏度和特异度之间的调和平均值,平衡这两种能力。作者们在CHAOS 和 Pancreas-CT 数据集上进行测试。Table 4 显示,通用模型对三种肿瘤的调和平均值分别为 91.84%、93.31% 和 92.59%,表明能够准确识别肿瘤病例,同时减少False Positive并实现两种指标的平衡。
此外,如下图5,在具体的检测和分割上,第1-3行展示了小、中、大三种胰脏肿瘤的位置预测,第4行中本模型展示的分割区域能够精准地分割胰腺,并且减少False Positive数量。
3.3 CLIP嵌入的有效性
为了验证使用CLIP编码的嵌入空间替代传统one-hot编码的有效性,文章进一步展示了两者的t-SNE可视化,如图6所示。不难看出,与one-hot相比,采用CLIP编码的方案能够得到更好的特征聚类和科学的解剖结构。
4. 实用属性
效率: 以每秒浮点运算次数(FLOPS)为X轴,DSC分数为Y轴,在相同的数据集上运用不同的模型进行推理,文章提出的模型计算效率更高,且能保持较高的DSC分数。
可拓展性:灵活的backbone。文章使用了基于CNN的backbone和Swin UNETR的backbone,分别得到了76.73%和76.11%的平均DSC分数。
通用性:使用外部数据集。文章采用了3D-IRCADb和JHH作为外部数据集验证,在两个数据集上的表现均得到了优于先前方法的表现。
泛化性:fine-tuning。通过使用自组建的数据集来预训练模型,并将其微调到特定的任务上,如TotalSegmentator的四个任务和JHH的两个任务,Universal Model基本上获得了最好的结果。
5. 结论
-
文章提出了用于腹部器官分割和肿瘤检测的 CLIP 驱动通用模型(CLIP-Driven Universal Model)。 -
CLIP-Driven Universal Model将CLIP嵌入和分割模型结合,解决了标签不一致和正交性的问题;CLIP嵌入还在器官和肿瘤之间建立了更强大和有意义的解剖学关系。 -
CLIP-Driven Universal Model能从只有部分有标记的数据集中实现高性能学习,并获得接近人类专家的分割精度。 -
CLIP-Driven Universal Model具备令人信度的高效率、可拓展、通用性和泛化性四项优点。


