STTT（一区IF=52.7）| 基于多模态数据预测胃癌对HER2靶向治疗或HER2联合免疫治疗的反应



STTT（一区IF=52.7）| 基于多模态数据预测胃癌对HER2靶向治疗或HER2联合免疫治疗的反应

瓴智医学AI

2025-11-27

导读：研究针对HER2阳性胃癌患者对抗HER2靶向治疗或抗HER2联合免疫治疗反应存在显著异质性的问题，开发了一种基于多模态数据的深度学习模型MuMo。

本文题为《Predicting gastric cancer response to anti-HER2 therapy or anti-HER2 combined immunotherapy based on multi-modal data》，由Zifan Chen等人共同完成，作者单位包括北京大学数据科学中心、北京国际数学研究中心及机器学习研究中心等。该研究针对HER2阳性胃癌患者对抗HER2靶向治疗或抗HER2联合免疫治疗反应存在显著异质性的问题，开发了一种基于多模态数据的深度学习模型MuMo。该模型融合CT影像、病理图像和临床信息，即使在部分数据缺失情况下，仍能准确预测治疗反应。MuMo在内部验证中对两种治疗的预测准确率（AUC）分别达0.821和0.914，外部测试中也表现稳定（AUC=0.884）。经MuMo划分的低风险患者生存期显著更长，且预测结果与关键临床特征一致。研究表明，MuMo能有效提升胃癌治疗反应预测的准确性，具有良好临床适用性，为个体化治疗提供了可靠的AI支持。

01 摘要

本研究构建了名为MuMo的多模态深度学习框架，以应对HER2阳性胃癌治疗反应高度异质化的临床难题。该模型通过综合放射影像、病理切片与临床数据，在部分模态缺失情形下仍保持稳健的预测性能。验证结果显示，其对单纯抗HER2治疗及联合免疫治疗的预测效能优异，且在独立外部数据集中保持较高判别力。经MuMo划分的低风险患者展现出显著生存优势，模型判断与肿瘤分化程度、腹膜转移等关键临床指标高度吻合。这一研究证实了多模态人工智能在提升胃癌疗效预测精度、优化个体化治疗决策方面的应用潜力。

图1 | 研究整体工作流程与主要发现总结

02 研究背景

HER2阳性胃癌是全球范围内，尤其是在中国，一种常见且治疗复杂的恶性肿瘤。尽管靶向HER2的药物以及将其与免疫检查点抑制剂（如抗PD-1/PD-L1）相结合的联合疗法已成为标准治疗手段，但患者的治疗反应存在巨大差异。有临床研究表明，仅有不到半数的患者对传统靶向治疗敏感，而联合免疫疗法虽能提高部分患者的应答率，却并未能一致性地改善所有患者的总生存期。这种显著的个体异质性凸显了精准预测治疗反应的迫切需求。

然而，实现精准预测面临两大挑战。首先，传统的单模态数据（如仅凭影像或仅凭病理）难以全面捕捉肿瘤在分子、细胞及组织层面的复杂特性。其次，尽管人工智能在医疗领域的应用前景广阔，但其在预测复杂疾病（如胃癌）治疗反应方面仍处于起步阶段，且现实世界中患者数据常存在缺失或不完整的情况。因此，开发一种能够有效整合多来源、多类型临床数据，并能克服数据缺失问题的新型人工智能模型，对于推动HER2阳性胃癌的个体化精准治疗至关重要。

03 模型设计

MuMo模型是一个基于Transformer的深度学习框架，其核心设计在于多模态特征提取与渐进式信息融合，并能灵活处理模态缺失的问题。

图2 | MuMo模型整体框架与工作流程

1.多模态特征提取

模型从三种数据类型中提取特征：

（1）病理数据：将全玻片图像在标注的肿瘤区域内划分为“包”和“词”，使用轻量级卷积神经网络MnasNet提取深度特征，并使用PyRadiomics库提取组学特征。病理结构式报告通过参数无关编码器转换为嵌入向量。

（2）放射学数据：基于放射科医生标注的病灶区域，同样使用MnasNet和PyRadiomics分别提取CT影像的深度特征和组学特征。放射结构式报告同样被编码为嵌入向量。

（3）患者信息：包括年龄、性别等在内的临床变量，直接通过参数无关编码器处理。

2. 渐进式多模态信息融合

MuMo模型的核心创新，采用三级融合策略：

（1）模态内融合

首先，在每个模态内部使用交叉注意力机制将图像特征（深度特征+组学特征）与对应的结构式临床报告特征进行深度融合，生成增强后的模态特征向量（Fpath和Frad）。

（2）模态间融合

将来自不同模态（病理和放射）的增强特征进行有效整合，并解决现实世界中常见的模态缺失问题。

全模态：当病理和放射数据均存在时，将Fpath和Frad分别解耦为模态特异性特征和模态无关特征。对模态无关特征进行对比学习对齐后取平均，再与两个模态特异性特征拼接，形成统一的模态间融合特征。
模态缺失：当某一模态数据缺失时，使用一个可学习的占位符特征来替代缺失的模态特征，并与现有模态的特征进行融合，从而保证模型在数据不完整情况下的稳健性。

（3）患者信息融合

将融合后的多模态图像或报告特征与患者层面的宏观临床信息进行最后整合。模态间融合得到的特征作为Query (Q')，患者信息嵌入向量作为 Key (K') 和 Value (V')。再次使用交叉注意力机制，让多模态特征Q'去“查询”患者信息K'，并根据查询结果对患者信息V'进行聚合，从而生成一个全面考虑了所有可用信息的患者最终表征。

3.预测输出

将患者信息融合模块输出的最终特征向量，输入一个多层感知机，并通过一个Softmax 激活函数，输出患者属于治疗“应答者”或“非应答者”的风险概率分数。

04 实验设置

1. 数据集与队列划分

图3 | 多模态数据分布与临床特征热图

（1）数据来源

实验数据来源于一项多中心回顾性研究，最终共纳入429名HER2阳性胃癌患者。根据其接受的治疗方案，患者被划分为两个独立的研究队列：

抗HER2队列，包含271名仅接受抗HER2靶向治疗联合化疗的患者；
抗HER2联合免疫队列，包含119名接受抗HER2靶向治疗、联合抗PD-1/PD-L1免疫检查点抑制剂及化疗的患者。

（2）队列划分

抗HER2队列：将其随机划分为训练集和验证集，并额外使用一个来自外部医院的39人队列作为独立测试集，以检验泛化能力。
抗HER2联合免疫队列：同样划分为训练集和验证集进行内部验证。

2. 评估指标与方法

（1）核心性能指标：使用受试者工作特征曲线下面积（AUC）来评估模型区分治疗应答者与非应答者的能力。

（2）生存分析：研究将模型预测的风险分数通过Youden指数转换为二分类风险分组（高风险 vs. 低风险），并采用Kaplan-Meier生存分析与log-rank检验，比较两组患者在无进展生存期和总生存期上的差异，从而将预测结果与最终的临床预后直接关联。

（3）稳健性验证：使用Bootstrap重复抽样计算AUC的置信区间和分布，并通过Levene检验比较模型与临床医生组决策的稳定性。

（4）消融实验：通过系统性地移除模型中的关键组件（如单一模态、不同的融合方法、临床报告等），来验证每个设计元素的有效性。

（5）可解释性分析：在图像层面，利用梯度加权类激活映射（Grad-CAM）和区域重要性评分等技术，可视化模型在CT影像和病理全玻片图像上的关注区域。在临床层面，通过分析模型预测的风险分数与关键临床变量（如肿瘤分化程度、Lauren分型、腹膜转移、肿瘤浸润淋巴细胞等）之间的统计学关联，验证其预测逻辑是否符合既定的临床知识。

05 结果与分析

1. 预测性能

图4 | MuMo模型预测性能与生存分析结果

MuMo在抗HER2队列的验证集和独立测试集上的AUC分别为0.821和0.884，在抗HER2联合免疫队列的验证集上AUC为0.914，性能显著优于仅使用单一模态的模型，并超越了六位临床医生的独立判断，甚至与其会诊的综合判断相当。

生存分析证实，经MuMo划分的低风险组患者，其无进展生存期和总生存期均显著长于高风险组。例如，在抗HER2队列的独立测试集中，低风险组的中位总生存期为17个月，远高于高风险组的6个月。

2. 稳健性与可解释性

（1）Bootstrap稳健性检验表明MuMo的预测性能波动小，稳定性高于临床医生组。

（2）消融实验系统验证了MuMo模型设计的合理性：结果表明，多模态融合策略（AUC 0.750）的预测性能显著优于单一病理（0.703）或放射学模态（0.639）；其专用的模态间融合模块在处理多源信息时，效果优于简单的特征拼接或求和等基线方法；并且，逐步引入临床报告与患者信息能持续提升模型的最终性能。

（3）可解释性分析显示，模型的关注区域与HER2高表达区、临床关注的病灶位置高度吻合。其预测的风险分数与已知的临床预后因素显著相关，证明了其预测符合临床逻辑。

图5 | 模型可解释性分析与临床相关性

06 结论

本研究成功开发并验证了一个名为MuMo的多模态深度学习模型，该模型通过整合CT影像、病理切片、临床报告与患者信息，能够精准预测HER2阳性胃癌患者接受抗HER2靶向治疗或其联合免疫治疗的反应。实验结果表明，MuMo不仅展现出优异的预测性能与泛化能力，还能有效区分患者的生存预后，其决策逻辑与临床知识高度一致，为实现胃癌个体化精准治疗提供了可靠且具有临床实用价值的AI工具。

07 论文评价

✅方法创新亮点

1.提出专有的多模态融合框架（MuMo）

设计了一个基于Transformer的、端到端的深度学习模型，能够深度融合异质的医学数据（放射CT、病理图像、结构化临床报告和患者信息），克服了传统单一模态或简单拼接模型在信息整合上的局限性。

2.创新性地解决了临床数据缺失的现实难题

模型通过引入“可学习的占位符特征”，使其在病理或放射学等部分模态数据缺失的情况下仍能保持稳健的预测性能，极大地提升了在真实世界临床环境中的适用性。

3.实现了可解释的AI决策，与临床知识吻合

通过Grad-CAM、重要性评分等可视化技术，证实模型的关注区域与HER2表达区、关键病灶高度相关；其风险预测与肿瘤分化程度、腹膜转移等公认的临床预后因素一致，增强了医生对AI决策的信任度。

⚠方法不足

尽管数据集来自多个医疗中心，但其规模与多样性仍有待进一步扩充，以增强模型的普适性。此外，模型在运行过程中仍需依赖专家进行部分人工标注工作，例如在影像中勾画病灶区域、在病理切片上区分不同HER2表达区域等，这在一定程度上限制了其完全自动化的应用进程。

08 参考资料

论文链接：