大数跨境
0
0

Nature Cancer (一区IF=28.5)| 使用多模态真实世界数据和可解释人工智能解码跨癌种治疗结果

Nature Cancer (一区IF=28.5)| 使用多模态真实世界数据和可解释人工智能解码跨癌种治疗结果 瓴智医学AI
2025-09-14
0
导读:研究针对临床决策中依赖有限变量和专家经验的局限性,提出了一种结合多模态真实世界数据与可解释人工智能(xAI)的方法,用于解码跨癌种治疗结果。
本文题为《Decoding pan-cancer treatment outcomes using multimodal real-world data and explainable artificial intelligence》,由Julius Keyl、Philipp Keyl、Grégoire Montavon等来自德国埃森大学医院、柏林工业大学、慕尼黑大学等多家机构的跨学科团队共同完成。该研究针对临床决策中依赖有限变量和专家经验的局限性,提出了一种结合多模态真实世界数据与可解释人工智能(xAI)的方法,用于解码跨癌种治疗结果。研究基于15,726名38种实体瘤患者的350个临床、影像和分子标记,利用层间相关性传播(LRP)技术构建深度学习模型,预测患者总生存期(OS)和至下次治疗时间(TTNT),并识别出114个关键标记及其间1,373种交互作用。该模型在外部3,288名非小细胞肺癌患者队列中验证良好,其C-index显著优于传统预后评分系统(如UICC分期、ECOG PS等),并能够生成个体化风险贡献图谱(AID标记),为临床提供透明、可解释的治疗决策支持。研究表明,xAI能够整合多源临床数据,揭示跨癌种的预后机制,推动肿瘤精准医疗向数据驱动和个性化方向发展。

01 摘要

研究通过整合多来源真实世界临床数据与可解释人工智能(xAI)技术,开发了一种新型预后分析框架,以克服当前肿瘤诊疗中对有限变量和专家经验的过度依赖。该框架利用深度学习模型对涵盖数万例多癌种患者的多模态信息进行挖掘,成功预测个体生存与治疗反应,并识别出大量具有临床意义的生物标志物及复杂交互关系。经独立队列验证,该模型性能显著优于现有常规评估体系,且能生成可视化的患者特异性风险解析图谱,增强临床决策的透明度与可解释性。

图1 | 基于多模态数据和xAI的解码治疗结果工作流程概览

02 研究背景

尽管现代医疗中每位患者都可产生多模态临床数据,但真正实现个体化精准医疗仍存在困难。传统的预后评估工具通常依赖单一或有限变量(如TNM分期、ECOG评分等),未能充分利用患者全面的临床、影像和分子信息,且大多局限于特定癌种,忽略了跨癌种的共性规律。许多已开发的预测模型因未能整合患者独特的疾病背景信息而在临床实践中应用有限。
随着机器学习技术的进步和电子健康记录的普及,大规模整合多源临床数据(包括病史、实验室检查、影像学和组学数据)并建模复杂预后关系已成为可能。与此同时,可解释人工智能(xAI)方法的兴起为理解模型决策过程、量化每个变量对个体预后的贡献提供了新途径。这些发展为构建透明、可信且适用于跨癌种环境的临床预测模型奠定了技术基础。
此外,越来越多的证据表明,患者之间的相似性可能超越组织学类型,这促使研究者开始探索泛癌种分析框架,以期发现更具普适性的生物标志物和预后模式,从而弥补传统单一癌种研究的不足,为临床提供更全面、灵活的数据驱动决策支持。

03 模型设计

研究的模型设计核心是一个基于深度学习的生存分析模型,并集成了可解释人工智能(xAI)技术以解读模型决策。其设计可分为三个关键部分:
1.数据表征与预处理
图2 | 患者筛选与队列构建流程图
(1)多模态输入:模型整合了来自15,726名患者的350个变量,涵盖 人口统计学、临床检查、实验室检验、影像组学(CT自动提取的身体成分指标)、病理学(包括突变和PD-L1状态)、并发症(ICD编码)、既往干预(OPS编码)、肿瘤分期、转移部位和系统性治疗药物。
(2)处理缺失值:采用了一种名为特征扩展的创新方法。对于有缺失值的变量,将其转换为一个二维元组 (x, 1 - x)。当值存在时,元组为 (value, 1 - value);当值缺失时,元组为 (0, 0)。这种方法既能保留原始数值信息,又能将“缺失”本身作为一种信息提供给模型。
(3)数据编码:编码是数据预处理的核心环节,旨在消除量纲影响,将非数值数据数值化,并保证所有特征在一个相对公平的尺度上被模型学习。研究中提到了三种编码技术:
A. 连续变量被标准化
①适用对象:数值型变量,且理论上可以在一个范围内连续取值。例如:年龄、体重、血压、所有实验室检验值(CRP, LDH等)、CT衍生的身体成分指标(肌肉体积、脂肪体积)。
②方法:对每个特征,减去其均值(μ),再除以其标准差(σ)。公式为: z = (x - μ) / σ。
③结果与效果:处理后,数据的分布将变为均值为0,标准差为1的标准正态分布。
B. 分类变量被序数编码 
①适用对象:有序分类变量。这些变量的不同类别之间存在明确的、有意义的等级或顺序关系。如ECOG PS评分:0(完全正常),1(能走轻活),2(能自理但不能工作),3(部分自理),4(完全卧床);TNM分期:T1, T2, T3, T4;N0, N1, N2, N3;M0, M1。数字越大代表肿瘤进展越严重。
②方法:直接按照其内在顺序映射为整数。例如:M0 -> 0, M1 -> 1。
③目的:保留类别间的顺序信息,让模型能够理解“1 > 0”或“4 > 3”这种关系。
C. 分类变量被one-hot编码
①适用对象:名义分类变量。这些变量的不同类别之间没有内在的顺序关系。如癌症实体:肺癌、乳腺癌、sarcoma之间没有孰优孰劣的顺序关系;转移部位:肝转移、骨转移、脑转移。虽然严重程度不同,但作为类别特征,它们通常是平行的存在状态;用药史:是否使用过“帕博利珠单抗”(是/否)等。
②方法:为一个有 n 个类别的变量创建 n 个新的二进制特征(0或1)。对于每个样本,只有其所属类别对应的位置为1,其他所有位置为0。例如:“癌症类型”有 [肺癌、乳腺癌、Sarcoma] 三类,则:一个肺癌患者编码为 [1, 0, 0],一个乳腺癌患者编码为 [0, 1, 0]。
③目的:消除模型对不存在顺序关系的类别产生错误假设(比如误以为Sarcoma > 乳腺癌 > 肺癌)。它将类别信息转化为一种平等的、空间上的存在与否的关系。
2.神经网络架构
(1)核心模型:采用了一个全连接深度神经网络,其结构与DeepSurv类似,用于预测 Cox 比例风险模型中的风险评分。
(2)早期融合:在处理多模态数据时,常见的策略还有晚期融合(为不同模态分别建立子模型,最后合并结果)或中间融合。本研究采用早期融合,即在输入层就将所有350个来自不同来源(临床、影像、基因等)的特征拼接成一个一维的大向量,直接输入网络。作者认为所有特征都是一维且相对独立的,早期融合有利于模型学习变量间的交互作用。
(3)正则化:为了减少特征共线性对可解释性结果的潜在混淆,模型在训练时不仅对网络权重使用了 Dropout,还对输入层也应用了高达50%的 Dropout,以迫使网络学习更鲁棒和独立的特征表示。
  • 工作机制:通过随机丢弃输入特征,迫使网络不能总是依赖任何一个单一特征。它必须学会为冗余的特征寻找替代方案,或者学习更基础、更独立的特征表示。这个过程就像是在训练中不断地对特征进行“压力测试”。
3.可解释性方法
(1)层间相关性传播 (LRP):这是模型设计的精髓。训练好预测模型后,使用LRP算法进行反向传播,为每个患者的每一个变量计算出一个风险贡献(RC) 分数。具体如下:
  • 起点:从神经网络的输出层开始,即模型为该患者预测的风险分数。
  • 过程:将这个总风险分数作为初始“总相关性”,根据网络各层的连接权重和激活值,通过特定的传播规则(LRP-γ规则),将总相关性逐层分解、反向分配,直至输入层。
  • 终点:最终,在输入层的每个神经元(即每个临床变量)上都会得到一个风险贡献分数。
相关技术细节:
①规则选择:研究使用 LRP-γ规则。该规则对正向传播中的激活和权重进行了调整。这个规则能有效抑制噪声,产生更集中、更稳健的归因结果,特别适用于具有ReLU激活函数的网络。
②处理特征扩展:对于应用了特征扩展的变量(即(x, 1-x)),LRP会为这个二元组分别计算一个RC分数。最终的该变量的总RC是这两个分数的代数和。这确保了缺失值编码方式被正确地纳入解释框架中。
(2)AI衍生(AID)标记:AID标记是一个将原始数据与模型解读深度融合的创造性概念。它不是一个新测量的生物标志物,而是一个由AI生成的解释性标志物。
①双重维度
  • 维度一:原始值(What):患者的实际临床测量值(如,年龄=72岁,CRP=15 mg/L)。这是客观事实。
  • 维度二:风险贡献(So What):LRP计算出的RC分数。这是模型基于所有数据上下文,对该客观事实的临床意义解读。
② 临床翻译:AID标记直接将机器学习输出翻译成了临床医生可以理解的语言。
RC的符号(正/负):直接对应临床效益或风险。
正RC:被模型视为“坏”信号,提示需要关注或干预的不利因素。
负RC:被模型视为“好”信号,可能是保护性因素或治疗有效的积极迹象。
RC的绝对值:对应影响程度。绝对值越大,表明该变量在当前患者的预后决策中越关键。

04 实验设置

1、数据集划分
内部数据集:来自德国埃森大学医院的15,726名泛癌种患者。
外部验证集:来自美国Flatiron Health数据库的3,288名晚期非小细胞肺癌(NSCLC)患者,用于测试模型的泛化能力。
2.评估任务与指标
(1)主要任务:预测两个临床终点——总生存期(OS) 和至下次治疗时间(TTNT)。
(2)主要指标:C-index
  • 为什么选择C-index?
选择C-index作为核心指标是由生存数据的特性——“删失”所决定的。删失是指,在研究结束时,部分患者尚未发生我们关心的事件(死亡或开始下次治疗)。我们只知道他们生存(或未换药)的时间超过了某个点,但不知道具体会在何时发生。OS和TTNT数据中都存在大量删失。
  • C-index如何工作?
C-index评估的是模型的排序能力,而非绝对的预测值。其核心思想是:在所有可评估的“患者对”中,比较模型预测的风险顺序与实际观察到的事件发生顺序是否一致。
计算过程可简化为:找出所有“可比较”的患者对 (i, j)。一对患者可比较的条件是:两人中较短的那个时间发生了事件(而非删失)。例如,患者i在20个月时死亡,患者j在40个月时仍然存活(删失),这个对子就是可比较的。
对于每一个可比较的对子,如果模型预测死亡风险高的患者(i)确实比风险低的患者(j)更早发生事件(i在20个月死亡,j还活着),则认为预测是一致 的。如果模型预测高风险的患者(i)反而比低风险患者(j)更晚发生事件或一直未发生,则认为预测是不一致的。如果两人预测风险相同,则视为平局。
C-index = (一致的对子数 + 0.5 * 平局的对子数) / 所有可比较的对子数。
C-index的解读:范围0 到 1 之间。
0.5: 意味着模型的预测能力等同于随机猜测(和抛硬币一样)。
1.0: 意味着模型完美地排序了所有患者,风险高的患者总是更早发生事件。
< 0.5: 意味着模型的表现比随机猜测还差,可能存在着系统性的错误。
临床应用中,一个C-index > 0.7 通常被认为具有不错的预测区分能力,> 0.75 则被认为是相当好的模型。
图3 | 基于模型预测风险分层的Kaplan-Meier生存曲线
3.训练与验证流程:采用五折交叉验证。每次迭代,80%数据用于训练,10%用于超参数调优和早停,10%用于测试。为了证明“泛癌种”训练的优势,作者不仅在整个数据集上训练模型,还针对每个单一癌种单独训练模型,并在同一测试集上比较性能。
4、对比基线:将模型的预测性能与多种常用的临床预后评分系统进行对比,包括:UICC TNM分期、ECOG 体力状态评分 (ECOG PS)、查尔森合并症指数 (CCI)、改良格拉斯哥预后评分 (mGPS)。此外,还与一个仅使用10个最关键变量的简化Cox比例风险模型进行了对比。
5.可解释性验证:将LRP得出的变量重要性及交互作用与Cox模型的风险比和混合效应Cox模型的结果进行相关性分析,以验证xAI结果与传统统计学方法的一致性。

05 结果与分析

1.预测性能
  • 高性能:泛癌种模型在内部数据集上取得了优异的预测性能(OS: C-index=0.762; TTNT: C-index=0.711)。
  • 泛癌种优势:与仅在单一癌种数据上训练的模型相比,泛癌种训练策略显著提升了大多数癌种的预测性能。这表明模型成功学习了跨癌种的通用预后规律。
  • 超越传统评分:模型的C-index显著高于所有对比的传统临床评分系统。

图4 | xAI模型与传统预后评分系统的性能对比

  • 泛化能力强:模型在外部NSCLC队列上表现同样出色,且变量影响与内部数据集高度相关(Pearson's r = 0.9),证明了其强大的泛化能力。
2.可解释性发现
  • 关键标志物识别:LRP分析识别出114个关键变量,它们贡献了模型90%的决策权重。其中,CRP、fT3(游离三碘甲状腺原氨酸)、ECOG PS、M分期和LDH是全局最重要的预后因素。
图5 | 全局重要性排名最高的关键预后标志物
  • 揭示复杂交互:研究发现并验证了1,373对显著的变量间交互作用。例如,高CRP水平在血小板计数低的患者中风险贡献更大,而在血小板计数高的患者中影响较弱。这种复杂的非线性关系是传统统计模型难以捕捉的。
图6 | CRP的风险贡献与血小板计数间的交互作用
  • 标志物重要性的动态性:研究发现了标志物重要性因癌种和疾病阶段而异的动态变化规律。例如,腹部肌肉体积对阴道癌、子宫癌和睾丸癌最重要;而AST(天冬氨酸氨基转移酶)在尿道癌中的重要性出乎意料地高。
3.临床应用展示
  • “临床医生指南”:通过4名代表性患者的AID标记图谱,直观展示了如何解读模型结果。它清晰地列出每个变量对患者个体风险的贡献(正/负,大/小),帮助医生快速抓住影响该患者预后的关键因素,从而支持治疗决策。
图7 | “临床医生指南”:四位代表性患者的个体化风险贡献图谱
  • 超越静态评分:分析表明,像T分期、肿瘤分级这样的传统变量,其风险贡献(RC)与变量值本身相关性很弱,强调它们必须结合其他临床背景来解读,而xAI模型恰好能做到这一点。

06 结论

研究证实,基于多模态真实世界数据与可解释人工智能(xAI)结合的深度学习框架,能够显著提升跨癌种预后预测的准确性与可解释性。该方法不仅成功识别出CRP、fT3、ECOG PS等关键预后标志物及其间大量复杂交互作用,还生成了个体化的风险贡献图谱,为临床医生提供了透明、可操作的决策依据。经外部队列验证,模型性能稳定优于传统评分系统,凸显了其泛化能力与临床转化潜力,为推动肿瘤诊疗向数据驱动和个性化精准医疗方向发展提供了有力工具。

07 论文评价

方法创新亮点

    1.构建了可解释的泛癌种预后预测框架
    首次将层间相关性传播这一可解释人工智能技术,与基于多模态真实世界数据的深度学习生存模型相结合,不仅在跨38种实体瘤的宏大尺度上实现了高精度预后预测(OS与TTNT),更重要的是能够逐例、逐变量地解释模型的决策依据,生成双维风险贡献值。
    2.系统揭示了跨癌种的预后驱动因素与复杂交互作用
    凭借xAI的分析能力,研究超越了传统单一标志物分析,无假设驱动地从350个变量中识别出114个关键预后标志物,并发现了1,373对显著的变量间交互作用。这些发现揭示了此前未被认识的、具有跨癌种普适性的生物学和临床规律,为肿瘤生物学提供了新的见解。
    3.提供了从群体到个体的动态决策支持工具
    研究提出了“临床医生指南”的概念,能够将复杂的模型输出转化为直观的个体化风险图谱,清晰展示每位患者特有的有利与不利因素,从而辅助治疗决策。此外,研究还展示了标志物重要性会随癌症类型和疾病进程动态演变,证明了静态评分的局限性。

    方法不足

    回顾性设计不可避免存在混杂偏倚和选择偏倚,例如纳入的患者多为接受系统治疗者,可能代表病情更晚的人群;尽管采用输入dropout等技术试图缓解,未测量的混淆因素仍可能影响结果;治疗药物的风险贡献解释需格外谨慎,因其选择并非随机化,易受适应症混淆;外部验证仅聚焦NSCLC队列,结论在其他癌种中的普适性有待进一步证实;此外,模型依赖高质量结构化电子健康记录,在数据缺失或标准化不足的医疗机构中应用可能面临挑战。

    08 参考资料

    论文链接:
    https://doi.org/10.1038/s43018-024-00891-1
    代码链接:
    https://github.com/PhGK/DecodingCancer

    图文:植洁莹

    编辑:植洁莹
    审核:吴朝
    npj digital medicine(一区IF=15.1)|机器学习分析揭示了乳腺癌的肿瘤异质性和基质免疫异变
    Npj(一区IF=15.1)基于序列的Transformer模型整合多组学数据预测早产风险
    Nature Communications(一区 IF=15.7)基于人工智能的多模态数据融合用于阿尔茨海默病生物标志物评估
    Nature Medicine(一区IF=50.0)| 一种用于临床皮肤科的多模态视觉基础模型
    npj digital medicine(一区IF=15.1)|基于文本提示的大词汇量医学图像分割

    【声明】内容源于网络
    0
    0
    瓴智医学AI
    分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    内容 32
    粉丝 0
    瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    总阅读34
    粉丝0
    内容32