大数跨境

深度学习助力精准医疗:如何通过病理图像预测食管癌的转移与信号通路?

深度学习助力精准医疗:如何通过病理图像预测食管癌的转移与信号通路? 中科生信
2025-10-10
2
导读:深度学习助力精准医疗:如何通过病理图像预测食管癌的转移与信号通路?

今天小编要和大家分享的这篇文章是20257月发表在《Journal of Translational Medicine》(IF:7.5)期刊上的文章《OncoMet: a deep learning framework for the prediction of oncogenic signaling pathways and metastasis in esophageal cancer patients using histopathology images from primary tumors。这篇文章有什么亮点呢,一起跟着小编来看一下叭~

亮点:深度学习与跨数据集验证的结合---文章通过应用深度学习模型(特别是卷积神经网络)进行食管癌转移预测,并在不同类型癌症的数据集上验证了模型的效果,展示了其在临床环境中的广泛适用性。数据增强与平衡处理---为了解决数据不平衡问题,研究采用了数据增强策略(如Reinhard染色归一化和SMOTE),有效提高了模型的准确性与鲁棒性,这在传统生信分析中通常较少采用。

PS:如果有朋友有相关需求,可以联系小编,小编团队的专业人员能根据对影响因子的要求,设计创新思路、定制生信分析哦~个性化定制&专属服务

Highlights

1、转移预测:使用OncoMet

2、外部数据集上的模型验证

3、使用OncoMet预测信号通路

背景介绍

食管癌(EC)是全球健康的重大挑战,每年导致大量新发病例和死亡,尤其在男性群体中尤为严重。由于食管癌具有高度侵袭性,常常在早期就发生转移,导致其低于25%的五年生存率。尽管在早期诊断和治疗方法上已有进展,但食管癌的治疗仍面临巨大挑战,尤其是转移性癌症的异质性和因器官衰竭引起的死亡。深度学习(DL)技术近年来在癌症转移预测中展现了较大潜力,但针对组织病理图像的研究仍显不足。本研究提出了一种新型的深度学习框架——OncoMet,利用组织病理全切片图像(WSI)来预测食管癌的转移,并识别重要的癌基因信号通路,如mTORp53PTENPI3K/AKT。该框架通过三步数据增强策略提高了模型的泛化能力,并通过胃癌的TCGA-STAD数据集进行外部验证,验证了其在提升转移预测准确性和改善患者预后的潜力。OncoMet的创新之处在于其深度学习分类器能够直接在切片级别进行转移预测,为病理学家提供了高效的辅助工具,帮助改进食管癌的预后评估和治疗规划。

主要研究结果

(一)转移预测:使用OncoMet

在本研究中,我们从癌症基因组图谱(TCGA)中选择了124名食管癌患者(TCGA-ESCA)的组织病理图像(WSI),这些图像以x40放大倍率拍摄,像素密度为1,00,000 × 80,000,每个像素的空间分辨率为0.25微米(µm),并以8位色深保存,图像格式为.svs。数据集随机分为80:20的训练与测试集,符合帕累托原则。为了验证方法的有效性,我们还纳入了20名胃腺癌患者(TCGA-STAD)的诊断切片。表1总结了TCGA-ESCATCGA-STAD队列的临床与人口统计特征,包括性别、年龄组、存活状态和肿瘤位置等。值得注意的是,食管肿瘤主要位于下三分之一(76例)和中三分之一(32例),而胃肿瘤主要集中在贲门(4例)、胃体(4例)和幽门前庭(12例)。

在图1所示的实验中,训练集包含了100个诊断切片WSI。通过使用ResNet101预训练架构提取特征,并将其输入到各种机器学习算法中进行分类,采用了端到端的监督方式。考虑到数据集的规模较小且存在过拟合的风险,研究中应用了数据增强技术。数据增强包括对现有数据进行多种转换,提升数据集的多样性,从而减少过拟合,改善深度学习模型的泛化能力和鲁棒性。为了解决这些挑战,我们的方法仅对训练数据应用了数据增强技术,其中包括Reinhard染色标准化。

我们进行了三次这一过程,每次使用不同的参考图像,从而使数据集增大三倍,总图像数量为300张。这些增强后的样本使用原始患者的姓名和用于标准化的参考图像名称进行命名。这一数据增强策略显著提升了我们深度学习(DL)模型的鲁棒性和泛化能力,使其更适应于处理来自不同医疗机构的组织病理图像(WSI)特征中的固有变化。值得注意的是,测试数据没有进行增强,以确保对模型性能的实际评估。最后,模型在训练测试集拆分时使用了24张图像进行测试。

提取的特征被传递给不同的机器学习模型进行分类。KNN表现优于其他模型,包括支持向量机、逻辑回归、决策树、AdaBoost和随机森林。该模型在预测转移性肿瘤方面表现强劲,精度为0.88,召回率为1.00F1得分为0.94。对于非转移性肿瘤,精度为1.00,召回率为0.78F1得分为0.88。模型的整体准确率和AUC得分为92%。在24张测试图像中,15张是转移性肿瘤,9张是非转移性肿瘤。模型正确识别了所有15张转移性切片和7张非转移性切片,突显了OncoMet算法的准确性和有效性。所有模型在测试集和验证集上的表现如表2所示。

(二)外部数据集上的模型验证

为了验证我们表现最好的模型,我们使用了来自TCGA的胃癌外部数据集。这一外部验证对于评估模型在训练数据之外的泛化能力和鲁棒性至关重要。我们选择了相等数量的转移性和非转移性患者,以确保数据的平衡。胃癌WSI的预处理使用了PyHIST,并在与训练阶段相同的参数下进行。色彩标准化使用了Reinhard标准化,在预处理步骤中采用了三张参考图像之一。标准化前后补丁的差异如图2所示。

预处理的一致性确保了训练集和验证集中的WSI数据标准化。与训练集不同,验证集没有进行任何数据增强,从而保证了模型性能评估的公正性。KNN模型在食管癌数据上训练,并在胃癌验证集上达到了85%的准确率,AUC得分为84%。非转移性切片的精度为0.89,而转移性切片的精度为0.82。转移性切片的召回率和F1得分高于非转移性切片,转移性肿瘤的召回率为0.90F1得分为0.86,而非转移性肿瘤的召回率为0.80F1得分为0.84。这些结果表明,模型在外部数据集上成功泛化,且在转移性与非转移性分类上的性能保持较高水平。

胃癌被选作外部验证的对象,因为其在组织学和病理学上与食管腺癌高度相似。两种癌症都源自上消化道,并且通常具有相似的腺体形态、肿瘤微环境和进展模式。此外,它们在分子特征上也存在重叠,包括PI3K/AKTp53等通路的失调,这些都是我们研究中的关键因素。这些相似性使得胃癌在验证我们模型的泛化能力时,成为一个生物学上相关的选择,特别是在使用组织病理图像进行转移预测的背景下。

(三)使用OncoMet预测信号通路

我们利用从转移预测中提取的特征,探索了与食管癌(EC)相关的四个信号通路:mTORp53PI3K/AKTPTEN。整个实验过程如图3所示。每个WSI图像的标签被注释为“存在(1)”或“缺失(0)”。在每个信号通路中,两个类别之间存在显著的数据不平衡。例如,p53通路显示出明显的不平衡,其中只有13%的病例通路缺失,87%的病例通路存在。其他信号通路也观察到了类似的模式:mTOR通路中89%的病例缺失,11%的病例存在;PI3K/AKT通路中85%的病例存在,15%的病例缺失;PTEN通路中92%的病例缺失,只有8%的病例存在。这些不平衡强调了训练鲁棒模型的挑战,并强调了采取如数据增强和纳入外部数据集等策略的重要性,以确保类别的平衡表示。

解决这些类别不平衡问题对提高我们模型的可靠性和预测性能至关重要。我们通过整合来自TCGA-HNSCC队列的额外数据来应对类别不平衡问题。此策略旨在平衡数据集中少数类的表示。具体而言,我们从HNSCC队列中选择了21mTOR通路激活的患者,8p53通路激活的患者,10PI3K/AKT通路激活的患者,以及26PTEN通路激活的患者。这些患者被选中,以匹配少数类实例,并被纳入研究中,从而帮助平衡信号通路数据。HNSCC队列中的病例在预处理时与TCGA-ESCA队列中的病例相同。每个WSI图像被划分成多个小块,含有不到10%组织的块被丢弃,以确保图像质量。然后,这些小块通过预训练的ResNet101模型(去掉顶层)进行特征提取。提取的特征被保存,供后续分析使用。最终的数据集按80:20的比例随机划分为训练集和测试集。

尽管我们加入了额外的HNSCC数据,一些类别不平衡问题依然存在。为了进一步缓解训练数据集中的这一问题,我们应用了合成少数类过采样技术(SMOTE)。SMOTE是一种强大的数据增强方法,能够帮助解决机器学习数据集中的类别不平衡问题。它通过智能地在现有样本之间插值,生成少数类的合成样本。这一过程创建了一个更加平衡的训练数据集,确保模型接触到更多的少数类和多数类样本。测试集未做任何处理,以保持其原始性并提供公正的模型性能评估。该方法确保训练数据的平衡,增强了模型从不同示例中学习的能力,减少了偏差的风险。使用SMOTE技术,我们为每个信号通路生成了187个训练样本。最终平衡的数据集如图4所示,展示了少数类和多数类的平衡表示。

尽管应用了SMOTE以解决类别不平衡问题,PTEN通路预测的相对低性能仍然归因于PTEN类的改变表示不足,即使在使用SMOTE过采样后,这一问题依然影响了性能。由于SMOTE生成的合成样本是少数类实例的线性插值,它们未能充分捕捉到组织病理图像特征的非线性和高维度变异性,尤其是在复杂分子表型如PTEN失活的情况下。

我们对每个信号通路实验了多种分类器,包括KNNSVM、逻辑回归、随机森林、决策树和AdaBoost。根据准确率、精确率、召回率、F1分数和AUC等指标,选择了表现最佳的分类器。我们观察到,AdaBoostp53PI3K/AKT通路的表现优于其他分类器,这可能与其处理复杂模式和类别不平衡的能力有关,而决策树在mTORPTEN通路的表现更好,得益于其较简单的决策边界。

决策树分类器在预测mTOR信号通路时表现最佳。其准确率为87%AUCROC曲线下面积)为64%。当通路缺失时,模型表现出高精度(0.88)、高召回率(0.96)和高F1分数(0.92)。即使在通路存在时,模型保持了较高的精度(0.80),尽管召回率(0.57)和F1分数(0.67)较低。灵敏度为0.57,特异性为0.95。对于p53信号通路,AdaBoost模型的表现优于其他分类器。其精确率、召回率和F1分数分别为0.67(通路缺失时)和0.96(通路存在时)。该模型表现出较高的灵敏度(0.95),但特异性较低(0.66)。总的来说,它达到了93%的准确率和76%AUCAdaBoost同样在预测PI3K/AKT信号通路时表现出色。它的精度、召回率和F1分数分别为0.75(通路缺失时)和0.96(通路存在时)。该模型表现出较高的灵敏度(0.95)和特异性(0.75),准确率为93%AUC92%。对于PTEN信号通路,决策树分类器提供了最佳结果。它在通路缺失时的精度、召回率和F1分数分别为0.830.870.85。在通路存在时,精度为0.57,召回率为0.50F1分数为0.53。灵敏度为0.50,特异性为0.86,准确率为77%AUC74%。最佳模型在食管癌信号通路预测中的性能指标总结在表3中。这些模型是根据其出色的准确率、精度、召回率和F1分数选择的,展示了它们在识别与食管癌相关的关键信号通路方面的有效性。

讨论

食管癌进展过程中涉及的关键致癌通路包括mTORp53PTENPI3K/AKT。传统的诊断方法依赖于耗时的组织切片显微分析,但集成人工智能(AI)和机器学习(ML),如卷积神经网络(CNNs),可以实现更快速、更准确的检测和分类,帮助病理学家诊断食管癌并预测转移。本研究展示了深度学习(DL)模型在使用全切片图像(WSI)预测食管癌的转移和信号通路方面的能力。我们在食管癌数据集上训练了我们的模型,并进一步验证了其在外部胃癌数据集上预测转移的表现,证明了它作为一种可靠的癌症预后工具在临床环境中的潜力。尽管结果有希望,但我们面临着该领域固有的几个挑战,尤其是足够大训练样本的有限可用性,这可能导致过拟合问题。

我们探索了数据增强策略以应对这些挑战,包括Reinhard染色归一化和合成少数类过采样技术(SMOTE)。这些努力缓解了训练数据有限和潜在过拟合带来的挑战,最终有助于建立一个更可靠、更准确的食管癌转移预测模型。本研究中使用的图像块总数,包括通过数据增强生成的图像块,达到了1,078,883个,实际上增加了数据集的规模,为模型提供了更多样化的学习实例。用于转移预测的不同队列中的图像块分布见图5

我们模型预测这些通路激活的能力进一步强调了其在临床环境中的潜在应用价值。识别mTORPTENp53PI3K/AKT通路的状态可以为个体患者的食管癌分子基础提供有价值的见解,从而指导个性化治疗策略。在数据中遇到的显著不平衡问题,其中大多数实例显示这些通路缺失,凸显了数据增强和平衡技术的必要性。通过纳入来自TCGA-HNSCC队列的额外数据,有助于缓解这些不平衡问题。然而,部分不平衡问题仍然存在,强调了实现完全平衡数据集的持续挑战。

通过结合ResNet101进行特征提取和使用各种机器学习分类器,我们在测试集上检测转移的整体准确率和AUC评分均达到了92%。该模型的能力进一步在外部胃癌全切片图像(WSI)数据集上得到了验证,保持了稳健的性能,准确率为85%AUC评分为84%。测试集和验证集上的AUC ROC曲线如图6所示。为了解决训练数据有限和数据不平衡带来的固有挑战,我们应用了数据增强技术,包括Reinhard染色归一化和SMOTE,以增强模型的鲁棒性并缓解过拟合问题。通过加入来自TCGA-HNSCC队列的额外数据并对WSI进行仔细的预处理,确保了少数类样本的平衡表示,从而进一步提高了模型的可靠性。

总结

本研究对mTORPTENp53PI3K/AKT信号通路的研究揭示了显著的数据不平衡问题,通过使用两种不同的技术进行数据增强有效解决了这一问题。研究结果突出了平衡数据集在训练稳健预测模型中的重要性,并展示了将从转移预测中学习到的特征转移到通路分析中的可行性。未来的工作应进一步增加数据集的多样性,探索更先进的增强技术,并整合多组学数据以提高模型的性能。开发更复杂的算法,能够更有效地处理不平衡数据,将进一步提高预测的准确性和稳健性。


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.7k
粉丝0
内容580