大数跨境
0
0

Tiger:利用文本引导扩散模型改进罕见甲状腺癌亚型的AI模型

Tiger:利用文本引导扩散模型改进罕见甲状腺癌亚型的AI模型 汇智灵曦
2025-11-28
0
导读:本文介绍了上海交通大学团队提出的一个突破性的技术——Tiger Model。它可以根据结构化的临床文本描述,生成逼真且具有罕见亚型特征的超声图像,从根本上缓解“罕见病样本不足”的困局。

在AI医疗影像的热潮中,一个长期被忽视却极为残酷的现实是:大多数AI模型都是“常见病专家”。一旦遇到罕见疾病或罕见亚型,它们往往无能为力——不是因为AI不够聪明,而是罕见病样本太少,模型根本无法学到真实有效的特征。以甲状腺癌为例,超过90%都是乳头状癌,而滤泡状癌(FTC)、髓样癌(MTC)等罕见亚型,不仅样本极度稀少,其在超声图像上的表现也极为细微,甚至连经验丰富的医生也常常难以准确识别。这使得AI更难在罕见病检测中发挥作用。


2025年5月,上海交通大学团队在Nature Communications发表重要研究《Improving AI models for rare thyroid cancer subtype by text-guided diffusion models》,提出了一个突破性的技术——Tiger Model。它可以根据结构化的临床文本描述,生成逼真且具有罕见亚型特征的超声图像,从根本上缓解“罕见病样本不足”的困局。


论文链接:https://doi.org/10.1038/s41467-025-59478-8 



核心思想


Tiger Model的核心思想是利用详细的临床知识(文本提示)来精确控制医学图像(甲状腺超声)的生成过程。


使用流程是:首先构建一个包含常见和罕见亚型影像特征差异的知识库(包括成分、回声、纹理、钙化等);然后训练模型生成良性常见肿瘤特征,并通过共性特征迁移学习罕见肿瘤的独特特征;最终通过组合良性结节与常见肿瘤特征的排列组合以及罕见肿瘤的独特特征,实现罕见亚型多样化且真实的图像生成。


Tiger Model的训练和评估过程



模型架构


Tiger Model的卓越性能源于其精心设计的双阶段训练流程与双编码器控制架构,该架构实现了对图像前景(病灶)与背景(正常组织)的分离与精细控制。


1

第一阶段:粗训练(Coarse-Training)


以标准的U-Net架构(12层编码器、1个中间层、12层解码器)作为稳定扩散模型的主干。在大量图像-文本对上进行预训练,目标是让模型学习并掌握甲状腺超声图像的基础特征与数据分布,生成结构合理的初步图像。


2

第二阶段:精训练(Fine-Training)


本阶段作为模型的核心创新环节,在预训练的稳定扩散模型基础上,通过引入对称的ControlNet结构,分别建立了前景编码器(FG-Encoder)与背景编码器(BG-Encoder),以实现对病灶与背景的独立精细控制。


(1)前景编码器(FG-Encoder)


输入包括基于YOLOv8分割模型生成的病灶掩码,以及描述结节内部和边缘特征的文本。该编码器采用加权交叉注意力机制,为描述罕见亚型独特特征的关键词分配更高权重,确保这些特征在生成过程中得到突出体现。


(2)背景编码器(BG-Encoder)


输入包括通过Sobel边缘检测提取的图像轮廓(甲状腺、气管等解剖结构)和描述背景信息的文本。该设计确保了生成的背景具有正确的解剖结构和合理的成像环境。


(3)注意力融合模块


通过空间权重图动态调节前景与背景特征的贡献度,在结节边界等关键区域实现自然过渡。该融合设计显著提升了生成图像的真实性和严谨性,包括颜色与分辨率一致性、纹理合理性、扫描平面真实性以及肿瘤亚型合成的正确性。


模型的最终输出由以下公式决定:

其中,FSD是稳定扩散模型的直接输出,是经过融合模块后的输出,表示无分类器引导缩放系数,其动态调节增强特征对最终结果的贡献程度。


Tiger Model架构设计及应用


训练策略亮点:FG-Encoder和BG-Encoder具有各自独立的优化器,分别用各自的损失函数(均方误差损失,MSE)进行训练和参数更新。



实验结果


1

图像质量优异


在多项客观指标上,Tiger Model生成的图像质量均优于主流生成模型。在医生参与的“图灵测试”中,其生成图像的误判率高达92.2%,远超其他方法,且能精准地将文本描述的临床特征转化为图像特征,对关键放射学特征的识别准确率与真实图像非常接近。且医生对图像中关键放射学特征的识别准确率与真实图像相当。



2

显著提升诊断性能


使用Tiger Model生成的数据进行增强后,对罕见甲状腺癌亚型的诊断性能得到显著提升:FTC的诊断AUC从0.736提升至0.844(提升14.6%),MTC的AUC从0.752提升至0.823(提升9.5%)。研究同时证实,结合详细临床特征描述的生成方式(Tiger-F)比仅使用疾病名称的简单引导(Tiger-N)效果显著更优,证明精细文本控制在医学图像生成中的关键作用。


3

具备强大泛化能力


该模型在跨疾病测试(乳腺癌超声)和跨数据类型测试(儿科胸部X光)中均表现良好,其中儿科疾病多分类任务的准确率提升了20.3%,证明其在不同医学影像任务中具有广泛适用性。



未来与展望


未来,这一模式可以推广到更多罕见病、病理图像、医学教学等领域。让AI真正做到“人人可用”,为罕见病诊断带来普惠价值。Tiger Model的成功,标志着AI在医疗领域的应用从“数据驱动”向“知识+数据双驱动”迈出了关键一步。它不仅仅是一个数据增强工具,更是一个能够理解并可视化疾病特征的“临床助手”。



关于我们


汇智灵曦推出的训练推理一体化平台,集成了多种经典AI模型,并内置AI模型商城,旨在为用户提供高效、便捷的训练与推理解决方案。用户只需设置输入输出路径并调整参数,即可轻松完成模型训练与推理操作,快速适应科研探索或实际应用。平台拥有简洁的界面与操作流程,免去繁琐的技术要求,帮助用户节省时间、提高工作效率。无论是学术研究、技术开发还是企业应用,平台都能够提供稳定支持,是实现AI技术快速落地的理想选择。



点击下方“阅读原文”

立即申请“训练推理一体化平台”试用

【声明】内容源于网络
0
0
汇智灵曦
汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
内容 31
粉丝 0
汇智灵曦 汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
总阅读0
粉丝0
内容31