论文题目为《Frozen Large-Scale Pretrained Vision-Language Models are the Effective Foundational Backbone for Multimodal Breast Cancer Prediction》,由休斯顿大学、休斯顿卫理公会癌症中心、德州大学MD安德森癌症中心等多家顶尖科研机构联合完成,作者包括Hung Q. Vo、Lin Wang、Kelvin K. Wong、Chika F. Ezeana、Xiaohui Yu、Wei Yang、Jenny Chang、Hien V. Nguyen和Stephen T. C. Wong。研究创新性地提出了一种基于冻结的大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测方法,充分利用VLM强大的跨模态表征能力,将乳腺X线病灶图像与电子健康记录(EHR)中的结构化临床信息通过Tab2Text模块转化为自然语言描述,实现影像与文本的深度融合。与传统的图像-表格深度学习方法相比,该框架不再依赖于繁琐的特征对齐和手工特征工程,能够有效解决多中心EHR数据标准不一致的问题,大幅提升了模型的泛化能力和稳定性。实验结果显示,模型在CBIS-DDSM数据集上,验证集AUC从0.867提升至0.902,测试集从0.803提升至0.830;在EMBED数据集上,AUC由0.780提升至0.805;在小样本高不确定性的BI-RADS 3病例中,AUC更是达到0.96。该方法不仅在性能上取得显著突破,还显著降低了训练成本,具备极强的扩展性和实际临床应用价值,为推动多模态医学人工智能的发展提供了全新范式和技术路径。
01 摘要
02 研究背景
疾病负担重大
乳腺癌是全球女性中发病率最高的癌症,死亡率也居高不下。2020年全球有230万名女性被诊断为乳腺癌,68.5万人因此死亡。
多模态数据潜力巨大
临床中,乳腺X线影像(Mammogram)和电子健康记录(EHR)是最主要的两类数据来源。影像提供解剖和病灶特征,EHR包含人口学、病史、家族史、检查结果等丰富的结构化信息。
如何有效整合这两类异质数据,辅助医生提升良恶性判断和早期风险预测,是当前人工智能医学应用的重要课题。
二、研究难点
数据异质性与特征不对齐
不同医院的EHR字段不统一,存在特征缺失、标签不一致、编码标准不同,导致模型难以泛化。
多模态融合难度高
传统方法通常采用影像深度学习+表格浅层网络(如MLP)或传统机器学习,两个模态的特征空间存在天然鸿沟,融合效果有限。
小样本与过拟合问题
医学数据普遍样本量小,尤其是带有完整EHR和标注的影像数据更为稀缺。大型深度模型在这种数据上易出现过拟合,性能不稳定。
大模型微调成本高
当前主流的大模型(如CLIP、EVA-CLIP)参数量巨大,全面微调需要高昂的计算资源,并且存在丢失预训练泛化能力的风险。
三、相关工作
乳腺癌影像预测研究
异常检测:判断是否存在异常(正常 vs 异常)
良恶性分类:在异常中判断是良性还是恶性,通常依赖于活检数据,成本高且侵入性强。
早期工作集中在单一模态,主要分为两类任务:
多模态融合方法探索
现有多模态模型主要通过视觉编码器(CNN/ViT)结合浅层神经网络或传统ML(如SVM、RF)对EHR进行编码,采用拼接、加权等简单融合方式,但对EHR字段缺失、标准不一致的鲁棒性较差。
大规模预训练模型的兴起
通用视觉-语言模型(如CLIP、EVA-CLIP)通过大规模图文对比学习,具备优秀的跨模态表征能力。
医学领域也开始出现BiomedCLIP、PubMedCLIP等领域特化模型,但因预训练数据相对较小,能力仍不及通用大模型。
最新趋势:冻结大模型+轻量下游
自然语言与视觉领域大量研究表明,冻结大模型的编码器,仅训练轻量的“连接器”或分类器,可以在多数任务中获得更高效、稳定的性能。
本研究首次将这一理念引入医学多模态乳腺癌预测任务,探索其在影像+EHR融合中的优势。
03 模型设计
本研究提出了一种基于冻结大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测框架,通过融合乳腺X线影像与电子健康记录(EHR)信息,实现更高效、更准确的良恶性预测。模型整体采用冻结VLM作为特征提取器,仅训练轻量级分类器,极大提升了泛化能力,降低了对数据规模和计算资源的依赖。
具体设计如下:
1️⃣ 数据输入:乳腺X线病灶图像(ROI)和EHR结构化表格数据。
2️⃣ Tab2Text转换:将EHR表格转换为自然语言文本,使其能被VLM的文本编码器理解。
3️⃣ 双编码器(Frozen VLM):图像通过VLM的图像编码器提取视觉特征,文本通过VLM的文本编码器提取语言特征,二者均为冻结状态。
4️⃣ 多模态融合与分类:图像特征与文本特征拼接,输入两层全连接分类器,完成良恶性预测。
5️⃣ 设计优势:无需复杂的特征工程,跨医院EHR字段不一致问题得到有效解决,训练高效,性能稳定,尤其在小样本场景下表现突出。
04 实验设置
本研究在两个公开的多模态乳腺癌数据集上进行实验,分别是CBIS-DDSM和EMBED。每个样本包含乳腺X线病灶图像(ROI)和对应的EHR表格数据,且均有活检病理金标准。
1️⃣ 数据集
CBIS-DDSM:传统胶片数字化乳腺X线,全部有病理标签。
EMBED:数字乳腺X线,部分有病理标签,仅选择单病灶且有EHR样本。
2️⃣ 训练策略
批次大小:256
学习率:冻结编码器时1e-2,若解冻则降为1e-4
优化器:Adam
训练轮次:20轮,采用早停机制
训练精度:使用混合精度(fp16)加速训练
每组实验采用5个随机种子,报告均值与标准差
3️⃣ 评估指标
准确率(Acc)
AUC(ROC曲线下面积) ——主要指标
AP(PR曲线平均精度)
05 结果与分析
1️⃣ 整体性能显著提升
在CBIS-DDSM数据集上,验证集AUC由0.867 → 提升到 0.902,测试集AUC由0.803 → 提升到 0.830,平均精度(AP)同步提升。
在EMBED数据集上,AUC由0.780 → 提升到 0.805,显示了良好的跨数据集泛化能力。

2️⃣ 小样本场景表现突出
在高不确定性的BI-RADS 3小样本场景下,测试集AUC由0.91 → 大幅提升到 0.96,验证集AUC由0.79 → 提升到 0.83。
即使在样本极度有限的情况下,模型仍能保持高性能,展现出强大的小样本学习能力。
3️⃣ 模型稳定性显著增强
冻结大模型相较于全量微调,标准差明显减小,多个随机种子下的表现更加一致。
模型收敛更快,训练过程更稳定,避免了深度模型在小样本下常见的过拟合问题。
4️⃣ 泛化能力更强,跨中心适应性更好
利用视觉-语言大模型的强大表征能力,模型有效解决了不同医院EHR特征不一致的问题。
在多中心、多数据源环境下,依然保持良好的预测效果,无需复杂的特征对齐或手动工程。

5️⃣ 性能-成本平衡优势明显
不需要对大模型进行全量微调,仅训练轻量级分类器即可获得优异性能。
大幅降低计算成本,同时保持高准确率和强泛化能力,具备良好的临床落地潜力。

06 结论
本研究提出了一种基于冻结大规模视觉-语言预训练模型(VLM)的多模态乳腺癌预测方法,通过融合乳腺X线影像与电子健康记录(EHR)数据,实现了比传统图像-表格模型更高的预测性能和更强的泛化能力。相比全量微调和传统方法,冻结VLM仅需训练轻量级分类器,不仅显著降低了训练成本,也有效避免了过拟合。实验结果表明,无论是在CBIS-DDSM、EMBED数据集,还是在小样本高不确定性的BI-RADS 3场景下,该方法均取得了更高的AUC、更好的稳定性和跨中心泛化能力。研究验证了大规模VLM在医学多模态预测中的巨大潜力,为临床乳腺癌风险评估和辅助决策提供了一种高效、可扩展的新范式。
07 论文评价
✅创新亮点
引入冻结大规模视觉-语言预训练模型(VLM)
首次在乳腺癌多模态预测中引入冻结的VLM模型(如EVA-CLIP、Open-CLIP),用作强大的特征提取器,仅训练轻量级分类器,显著降低计算成本,同时避免过拟合。
提出Tab2Text结构化数据转换模块
通过简单高效的Tab2Text模块,将EHR表格数据转换为自然语言描述,无需复杂的表格特征工程,有效解决了EHR字段不一致、多中心数据异质性等长期困扰多模态医学AI的难题。
统一视觉与结构化数据的表征空间
借助VLM的双编码器架构,将影像与结构化临床数据映射到相同的语义空间,突破了传统图像-表格模型中特征空间不一致的问题,实现了更自然、更有效的多模态信息融合。
高效、通用且跨中心鲁棒性强
该方法无需针对不同医院、不同数据结构反复调整特征,具备天然的跨中心适应能力。即使在小样本(如BI-RADS 3)或高不确定性场景下,依然展现出远超传统模型的稳定性和准确率。推动了医学AI范式转变
突破了传统“影像深度学习 + 表格浅层网络”模式,开创了“视觉-语言大模型为骨干”的全新医学多模态建模范式,为未来医学大模型的应用提供了可复制的技术路径。
⚠方法不足
本研究方法虽展现出良好的性能与泛化能力,但仍存在一定不足。首先,实验仅基于两个公开数据集,缺乏更大规模、多中心、多种族的临床验证,泛化能力仍有限。其次,EHR到文本的Tab2Text转换较为简单,无法充分捕捉复杂的临床语义信息。此外,模型的多模态特征融合仅采用简单拼接,缺乏更深层次的跨模态交互机制。面对真实临床中普遍存在的EHR缺失问题,当前方法尚未建立有效的鲁棒性处理策略,且缺少足够的可解释性,影响临床落地与信任。
08 参考资料
论文链接:
10.1109/JBHI.2024.3507638

