大数跨境
0
0

JBHI (IF=6.8) | 冻结的大规模预训练视觉语言模型是多模态乳腺癌预测的有效基础支柱

JBHI (IF=6.8) | 冻结的大规模预训练视觉语言模型是多模态乳腺癌预测的有效基础支柱 瓴智医学AI
2025-06-30
2
导读:JBHI (IF=6.8) | 冻结的大规模预训练视觉语言模型是多模态乳腺癌预测的有效基础支柱

论文题目为《Frozen Large-Scale Pretrained Vision-Language Models are the Effective Foundational Backbone for Multimodal Breast Cancer Prediction》,由休斯顿大学、休斯顿卫理公会癌症中心、德州大学MD安德森癌症中心等多家顶尖科研机构联合完成,作者包括Hung Q. Vo、Lin Wang、Kelvin K. Wong、Chika F. Ezeana、Xiaohui Yu、Wei Yang、Jenny Chang、Hien V. Nguyen和Stephen T. C. Wong。研究创新性地提出了一种基于冻结的大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测方法,充分利用VLM强大的跨模态表征能力,将乳腺X线病灶图像与电子健康记录(EHR)中的结构化临床信息通过Tab2Text模块转化为自然语言描述,实现影像与文本的深度融合。与传统的图像-表格深度学习方法相比,该框架不再依赖于繁琐的特征对齐和手工特征工程,能够有效解决多中心EHR数据标准不一致的问题,大幅提升了模型的泛化能力和稳定性。实验结果显示,模型在CBIS-DDSM数据集上,验证集AUC从0.867提升至0.902,测试集从0.803提升至0.830;在EMBED数据集上,AUC由0.780提升至0.805;在小样本高不确定性的BI-RADS 3病例中,AUC更是达到0.96。该方法不仅在性能上取得显著突破,还显著降低了训练成本,具备极强的扩展性和实际临床应用价值,为推动多模态医学人工智能的发展提供了全新范式和技术路径。

01 摘要

乳腺癌是全球女性普遍存在的健康问题。利用来自企业患者数据库(包括影像存档与通信系统 (PACS) 和电子健康记录 (EHR))的多模态数据有望改善预测效果。本研究引入了一种利用乳房 X 光检查数据集来评估乳腺癌预测的多模态深度学习模型。我们的方法集成了冻结的大规模预训练视觉语言模型,在两个公共乳腺癌数据集上展现出比传统图像表格模型更卓越的性能和稳定性。该模型结合使用冻结的预训练视觉语言模型和轻量级可训练分类器,其性能始终优于传统的完全微调方法。观察到的改进非常显著。在 CBIS-DDSM 数据集中,验证集上的曲线下面积 (AUC) 从 0.867 增加到 0.902,官方测试集上的曲线下面积 (AUC) 从 0.803 增加到 0.830。在 EMBED 数据集中,验证集上的 AUC 从 0.780 提升至 0.805。在数据有限的场景下,使用乳腺影像报告和数据系统三类 (BI-RADS 3) 病例,AUC 在官方 CBIS-DDSM 测试集上从 0.91 提升至 0.96,在具有挑战性的验证集上从 0.79 提升至 0.83。本研究强调了视觉语言模型在联合训练来自多家医疗机构的多样化影像临床数据集方面的优势,有效解决了与非对齐表格特征相关的挑战。结合训练数据增强了 EMBED 数据集上的乳腺癌预测能力,其表现优于所有其他实验。总而言之,我们的研究强调了冻结的大规模预训练视觉语言模型在多模态乳腺癌预测中的有效性,其性能和稳定性优于传统方法,增强了其在乳腺癌预测中的潜力。

02 研究背景

一、研究问题
    • 疾病负担重大

      • 乳腺癌是全球女性中发病率最高的癌症,死亡率也居高不下。2020年全球有230万名女性被诊断为乳腺癌,68.5万人因此死亡。

    • 多模态数据潜力巨大

      • 临床中,乳腺X线影像(Mammogram)和电子健康记录(EHR)是最主要的两类数据来源。影像提供解剖和病灶特征,EHR包含人口学、病史、家族史、检查结果等丰富的结构化信息。

      • 如何有效整合这两类异质数据,辅助医生提升良恶性判断和早期风险预测,是当前人工智能医学应用的重要课题。

    二、研究难点

      • 数据异质性与特征不对齐

        • 不同医院的EHR字段不统一,存在特征缺失、标签不一致、编码标准不同,导致模型难以泛化。

      • 多模态融合难度高

        • 传统方法通常采用影像深度学习+表格浅层网络(如MLP)或传统机器学习,两个模态的特征空间存在天然鸿沟,融合效果有限。

      • 小样本与过拟合问题

        • 医学数据普遍样本量小,尤其是带有完整EHR和标注的影像数据更为稀缺。大型深度模型在这种数据上易出现过拟合,性能不稳定。

      • 大模型微调成本高

        • 当前主流的大模型(如CLIP、EVA-CLIP)参数量巨大,全面微调需要高昂的计算资源,并且存在丢失预训练泛化能力的风险。


      三、相关工作

      • 乳腺癌影像预测研究

        • 异常检测:判断是否存在异常(正常 vs 异常)

        • 良恶性分类:在异常中判断是良性还是恶性,通常依赖于活检数据,成本高且侵入性强。

        • 早期工作集中在单一模态,主要分为两类任务:

      • 多模态融合方法探索

        • 现有多模态模型主要通过视觉编码器(CNN/ViT)结合浅层神经网络或传统ML(如SVM、RF)对EHR进行编码,采用拼接、加权等简单融合方式,但对EHR字段缺失、标准不一致的鲁棒性较差。

      • 大规模预训练模型的兴起

        • 通用视觉-语言模型(如CLIP、EVA-CLIP)通过大规模图文对比学习,具备优秀的跨模态表征能力。

        • 医学领域也开始出现BiomedCLIP、PubMedCLIP等领域特化模型,但因预训练数据相对较小,能力仍不及通用大模型。

      • 最新趋势:冻结大模型+轻量下游

        • 自然语言与视觉领域大量研究表明,冻结大模型的编码器,仅训练轻量的“连接器”或分类器,可以在多数任务中获得更高效、稳定的性能。

        • 本研究首次将这一理念引入医学多模态乳腺癌预测任务,探索其在影像+EHR融合中的优势。

        03 模型设计

        本研究提出了一种基于冻结大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测框架,通过融合乳腺X线影像与电子健康记录(EHR)信息,实现更高效、更准确的良恶性预测。模型整体采用冻结VLM作为特征提取器,仅训练轻量级分类器,极大提升了泛化能力,降低了对数据规模和计算资源的依赖。

        具体设计如下:
        1️⃣ 数据输入乳腺X线病灶图像(ROI)和EHR结构化表格数据。


        2️⃣ Tab2Text转换:将EHR表格转换为自然语言文本,使其能被VLM的文本编码器理解。
        3️⃣ 双编码器(Frozen VLM)图像通过VLM的图像编码器提取视觉特征,文本通过VLM的文本编码器提取语言特征,二者均为冻结状态。
        4️⃣ 多模态融合与分类图像特征与文本特征拼接,输入两层全连接分类器,完成良恶性预测。
        5️⃣ 设计优势无需复杂的特征工程,跨医院EHR字段不一致问题得到有效解决,训练高效,性能稳定,尤其在小样本场景下表现突出。

        04 实验设置

        本研究在两个公开的多模态乳腺癌数据集上进行实验,分别是CBIS-DDSM和EMBED。每个样本包含乳腺X线病灶图像(ROI)和对应的EHR表格数据,且均有活检病理金标准。

        1️⃣ 数据集

        CBIS-DDSM:传统胶片数字化乳腺X线,全部有病理标签。

        EMBED:数字乳腺X线,部分有病理标签,仅选择单病灶且有EHR样本。

        2️⃣ 训练策略

        批次大小:256

        学习率:冻结编码器时1e-2,若解冻则降为1e-4

        优化器:Adam

        训练轮次:20轮,采用早停机制

        训练精度:使用混合精度(fp16)加速训练

        每组实验采用5个随机种子,报告均值与标准差

        3️⃣ 评估指标

        准确率(Acc)

        AUC(ROC曲线下面积) ——主要指标

        AP(PR曲线平均精度)

        05 结果与分析

        1️⃣ 整体性能显著提升

        • 在CBIS-DDSM数据集上,验证集AUC由0.867 → 提升到 0.902,测试集AUC由0.803 → 提升到 0.830,平均精度(AP)同步提升。

        • 在EMBED数据集上,AUC由0.780 → 提升到 0.805,显示了良好的跨数据集泛化能力。


        2️⃣ 小样本场景表现突出

        • 在高不确定性的BI-RADS 3小样本场景下,测试集AUC由0.91 → 大幅提升到 0.96,验证集AUC由0.79 → 提升到 0.83

        • 即使在样本极度有限的情况下,模型仍能保持高性能,展现出强大的小样本学习能力。


        3️⃣ 模型稳定性显著增强

        • 冻结大模型相较于全量微调,标准差明显减小,多个随机种子下的表现更加一致。

        • 模型收敛更快,训练过程更稳定,避免了深度模型在小样本下常见的过拟合问题。


        4️⃣ 泛化能力更强,跨中心适应性更好

        • 利用视觉-语言大模型的强大表征能力,模型有效解决了不同医院EHR特征不一致的问题。

        • 在多中心、多数据源环境下,依然保持良好的预测效果,无需复杂的特征对齐或手动工程。

        5️⃣ 性能-成本平衡优势明显

        • 不需要对大模型进行全量微调,仅训练轻量级分类器即可获得优异性能。

        • 大幅降低计算成本,同时保持高准确率和强泛化能力,具备良好的临床落地潜力。

        06 结论

        本研究提出了一种基于冻结大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测方法,通过融合乳腺X线影像与电子健康记录(EHR)数据,实现了比传统图像-表格模型更高的预测性能和更强的泛化能力。相比全量微调和传统方法,冻结VLM仅需训练轻量级分类器,不仅显著降低了训练成本,也有效避免了过拟合。实验结果表明,无论是在CBIS-DDSM、EMBED数据集,还是在小样本高不确定性的BI-RADS 3场景下,该方法均取得了更高的AUC、更好的稳定性和跨中心泛化能力。研究验证了大规模VLM在医学多模态预测中的巨大潜力,为临床乳腺癌风险评估和辅助决策提供了一种高效、可扩展的新范式。

        07 论文评价

        创新亮点

            • 引入冻结大规模视觉-语言预训练模型(VLM)
              首次在乳腺癌多模态预测中引入冻结的VLM模型(如EVA-CLIP、Open-CLIP),用作强大的特征提取器,仅训练轻量级分类器,显著降低计算成本,同时避免过拟合。

            • 提出Tab2Text结构化数据转换模块
              通过简单高效的Tab2Text模块,将EHR表格数据转换为自然语言描述,无需复杂的表格特征工程,有效解决了EHR字段不一致、多中心数据异质性等长期困扰多模态医学AI的难题。

            • 统一视觉与结构化数据的表征空间
              借助VLM的双编码器架构,将影像与结构化临床数据映射到相同的语义空间,突破了传统图像-表格模型中特征空间不一致的问题,实现了更自然、更有效的多模态信息融合。

            • 高效、通用且跨中心鲁棒性强
              该方法无需针对不同医院、不同数据结构反复调整特征,具备天然的跨中心适应能力。即使在小样本(如BI-RADS 3)或高不确定性场景下,依然展现出远超传统模型的稳定性和准确率。

            • 推动了医学AI范式转变
              突破了传统“影像深度学习 + 表格浅层网络”模式,开创了“视觉-语言大模型为骨干”的全新医学多模态建模范式,为未来医学大模型的应用提供了可复制的技术路径。


            方法不足

            本研究方法虽展现出良好的性能与泛化能力,但仍存在一定不足。首先,实验仅基于两个公开数据集,缺乏更大规模、多中心、多种族的临床验证,泛化能力仍有限。其次,EHR到文本的Tab2Text转换较为简单,无法充分捕捉复杂的临床语义信息。此外,模型的多模态特征融合仅采用简单拼接,缺乏更深层次的跨模态交互机制。面对真实临床中普遍存在的EHR缺失问题,当前方法尚未建立有效的鲁棒性处理策略,且缺少足够的可解释性,影响临床落地与信任。

            08 参考资料

            论文链接:

            10.1109/JBHI.2024.3507638

            【声明】内容源于网络
            0
            0
            瓴智医学AI
            分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
            内容 32
            粉丝 0
            瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
            总阅读0
            粉丝0
            内容32