大数跨境

15.1分!WGCNA+机器学习,揭示前列腺癌中兼具诊断和复发预测价值的生物标志物

15.1分!WGCNA+机器学习,揭示前列腺癌中兼具诊断和复发预测价值的生物标志物 中科生信
2025-09-09
2
导读:15.1分!WGCNA+机器学习,揭示前列腺癌中兼具诊断和复发预测价值的生物标志物

这篇文章是20258月发表在《npj Digital Medicine》(IF:15.1)期刊上的文章《Integrative machine learning models predict prostate cancer diagnosis and biochemical recurrence risk: Advancing precision oncology》。

亮点:本研究创新性地结合多组学与机器学习方法,通过WGCNA鉴定出前列腺癌中16个生化复发(BCR)相关基因,并通过构建机器学习模型以预测前列腺癌患者的诊断和预后。首次证实COMP基因兼具诊断和复发预测双重价值,实验验证其调控前列腺癌进展的功能,为精准诊疗提供新靶点。

背景介绍

前列腺癌(PCa)是男性最常见的恶性肿瘤,也是导致癌症相关死亡的主要因素之一。对于局限性前列腺癌,临床推荐的主要治疗方式包括根治性前列腺切除术(RP)和根治性放疗(RT)。尽管近年来技术进步显著提升了RPRT的疗效,但接受这些根治性治疗的患者中仍有约20%-60%会在十年内出现生化复发(BCR)。BCR的诊断标准通常为:根治术后前列腺特异性抗原(PSA)水平超过0.2 ng/mL,或放疗后PSA值较最低点上升超过2 ng/mLBCR的发生与PCa的不良预后密切相关,包括局部复发、远处转移以及死亡率增加等问题。因此,即使在PCa早期诊断和治疗取得进展的背景下,BCR仍然是临床诊疗面临的重大挑战。及时预测PCa患者的BCR风险,有助于临床医生制定个体化治疗方案,并根据复发风险调整随访计划,从而早期发现疾病进展或复发迹象,及时采取有效的治疗干预措施。

PSA检测在PCa监测中具有重要作用,尤其对早期发现生化复发(BCR)至关重要。研究表明,PSA水平的变化可作为BCR的早期信号,因此定期PSA检测是追踪PCa复发的关键环节。然而,必须认识到PSA检测存在固有局限性。首先,PSA筛查的假阳性率较高,可能导致不必要的后续检查和治疗,不仅加重患者的心理负担,还会增加医疗成本。其次,PSA水平的变化并不总是与癌症复发直接相关。例如,在某些治疗后(如高强度聚焦超声治疗),PSA可能出现短暂性显著升高,但这种现象未必代表癌症复发。此类情况被称为"PSA反弹(PSA bounce",易导致误判和过度治疗。综上,尽管PSA检测对监测PCa复发贡献显著,但其局限性仍在一定程度上制约了其临床应用价值。

近年来,人工智能技术的快速发展已成为生物医学领域的关键推动力。基于基因表达的诊断和治疗模型已成为包括PCa在内的癌症个体化治疗的重要指导工具本研究旨在通过整合多组学数据和机器学习算法,系统性地鉴定与PCa生化复发(BCR)相关的关键基因及调控网络,构建具有高预测性能的复发风险模型,并进一步评估其临床应用价值,为精准医疗的发展做出贡献。通过整合多种机器学习方法,期望能够识别与PCa诊断、预后相关的重要生物标志物,并解析其对肿瘤免疫微环境的影响。这项研究可能为开发个体化治疗策略和PCa精准管理提供潜在靶点。最终,本工作不仅致力于提升PCa患者的预后评估水平,还可能为开发新型治疗方案提供理论基础。

主要研究结果

(一)基于加权基因共表达网络分析(WGCNA)的BCR相关基因鉴定

WGCNA是一种系统生物学方法,可用于分析基因在不同样本中的共表达模式。该方法能识别协同变化的基因集,并根据基因集的互连性及其与表型、标记基因或治疗靶点的关联性筛选候选基因。本研究采用WGCNA方法分析GSE116918数据集中248个样本,鉴定与前列腺癌(PRAD)患者BCR相关的调控基因。首先筛选确定最优软阈值(图1A-C),随后对样本进行聚类分析,最终将GSE116918样本划分为11个稳定模块。其中粉色模块与PRADBCR相关性最高,模块内基因也与BCR显著相关(图1D-F)。该模块包含162个基因,其中16个在PRAD中高表达且与患者无进展间期(PFI)相关(图1G-H)。在TCGA-PRAD数据集中,这16个基因彼此呈正相关(图1I)。最后通过GSE116918数据集验证发现,BCR组患者中这些基因的表达量显著高于非BCR组(图1J)。

(二)BCR相关基因的功能分析

通过KEGGGO数据库分析这16BCR相关基因的潜在功能,KEGG分析显示这些基因与ECM-受体相互作用、吞噬体形成、黏着斑以及PI3K-Akt信号通路等通路显著相关。GO分析表明这些基因主要参与调控B细胞分化、自噬性细胞死亡和巨噬细胞分化等生物学过程(图2A)。进一步利用GSCA数据库分析发现,这些基因与细胞周期激活、上皮-间质转化(EMT)、雌激素受体激活以及RTK通路抑制相关(图2B)。随后对这些基因的拷贝数变异(CNV)频率进行分析,结果显示CTHRC1ITGBL1FAPTHBS2MSR1OLR1等基因的CNV频率变化显著(图2C)。最后在TCGA-PRAD数据集中分析这些基因在不同病理分期中的表达差异,发现所有基因在更高病理T分期、N分期和Gleason评分组中均呈现高表达(图2D-F)。

(三)基于BCR相关基因的聚类分析

本研究采用非负矩阵分解(NMF)算法对TCGA-PRAD样本进行聚类分析。基于共表达曲线的判定标准(目前公认最清晰的分类方法),确定了最合适的样本亚组分类方案——以共表达曲线最大降幅对应的顶点作为最佳分组依据。分析表明,将TCGA-PRAD样本划分为两个聚类(cluster)最为合理,聚类热图显示双分组时颜色分布更为集中(图3A-B)。预后分析显示,cluster 1患者的预后显著优于cluster 2(图3C)。BCR相关基因在不同聚类间呈现显著表达差异(图3D)。通过整合多种病理参数进一步分析发现,无论病理T分期、N分期、PSA水平还是Gleason评分,不同聚类间的患者数量分布均存在显著差异(图3E-H)。

(四)PCa患者BCR相关基因分析及免疫浸润与化疗敏感性研究

采用XCELL算法评估TCGA-PRAD数据集中各样本的免疫细胞浸润水平。分析显示,两组间在以下免疫细胞亚群的浸润程度上存在显著差异(p<0.005):髓样树突状细胞活化、CD4+记忆T细胞、CD4+效应记忆T细胞、共同淋巴样祖细胞、共同髓样祖细胞、髓样树突状细胞、粒-单核祖细胞、造血干细胞、巨噬细胞、M1型巨噬细胞、单核细胞、CD4+Th1细胞、CD4+Th2细胞以及调节性T细胞(Tregs)(图4A-B)。同时绘制了免疫细胞浸润水平热图(图4C)。进一步分析两组间多种化合物的IC50值差异,发现包括前列腺癌常用治疗药物比卡鲁胺在内的数种化合物存在显著组间差异(图4D)。为探究潜在机制,对两组进行基因富集分析。鉴于cluster2患者预后较差,重点分析该组富集的通路,结果显示WNTPI3K-AKTNOTCH1VEGFEGFR及免疫相关通路在cluster2中显著激活(图4E)。

(五)基于生物复发相关基因表达的诊断模型构建

为深入探究生化复发相关基因在PRAD中的作用,通过ROC曲线评估了这些基因对PRAD患者的诊断预测效能。分析结果显示,部分基因对PRAD诊断具有显著预测价值,而COL1A1INHBARCN3THBS2等基因的预测能力有限(5A)。基于此,利用六个PRAD数据集构建诊断模型:以TCGA-PRAD作为训练集,GSE32571GSE62872GSE16120GSE14206GSE38241作为验证集。在测试的108种算法组合中,LASSO+LDA算法展现出最优的建模效果。训练集TCGA-PRAD的曲线下面积(AUC)0.911,验证队列GSE32571GSE62872GSE16120GSE14206GSE38241AUC值分别为0.7640.6160.8240.8600.897(5B)。值得注意的是,采用LASSO+LDA算法构建的诊断模型最终纳入了13BCR相关基因,包括ASPNBGNCOMPCTHRC1FAPINHBAITGBL1MSR1NOX4OLR1RCN3SPP1TREM2(5C)

(六)构建BCR的预后模型

为构建BCR相关预后模型,我们首先从TCGA-PRAD数据集中收集了BCR患者的临床数据。研究将时间节点定义为首次BCR发生前的天数,并以BCR发生作为结局指标。最终纳入70TCGA-PRAD完整数据样本,同时整合GSE116918数据集中的248例患者数据。随后,通过随机种子将两个数据集的样本合并后随机划分为训练集(50%)、验证集(50%)和完整数据集。采用p<0.05为阈值进行单变量Cox分析,共筛选出6个预后相关基因:OLR1COMPINHBACOL1A1RCN3ASPN(图6A)。通过LASSO回归和逐步回归进行基因筛选后,经多变量Cox分析构建最终模型(图6B)。在完整数据集中,该模型对患者BCR预后展现出强劲的预测能力:高风险组患者的无BCR生存期显著短于低风险组(图6C-D)。研究还展示了模型中COMPINHBA基因在测试集与训练集中的风险因子分布图(图6E-F)。ROC曲线与Kaplan-Meier曲线分析证实,该BCR预后模型在测试集和训练集中均具有显著的预测价值(图6G-J)。

(七)机器学习算法识别关键BCR调控基因

为深入鉴定PCaBCR相关的关键调控基因,本研究采用XGBoost算法并结合SHAP解释框架,以BCR作为结局变量分析模型基因与复发的相关性。结果显示TCGA-PRADGSE116918数据集中与BCR关联性最强的15个基因(图7A-B)。通过Friends分析进一步评估基因重要性(图7C),发现诊断治疗模型中的COMPINHBA始终作为核心调控基因出现。综合XGBoost算法和Friends分析结果,COMP在基因重要性及其与BCR的关联度上均优于INHBA,故选定COMP进行后续分析。基于TCGA-PRAD数据集中COMP表达的中位数,我们将样本分为高表达组和低表达组。研究发现COMP表达水平与免疫细胞浸润程度显著相关(图7D-E)。通过分子对接分析发现,三种临床常用PCa药物与COMP均具有强结合能力(图7F)。基因富集分析显示COMP与肿瘤免疫治疗通路显著相关(图7G-H),而TIDE算法结果表明高表达COMP患者对免疫治疗反应较差(图7I)。

(八)COMPPRAD中的表达分析

本研究通过免疫组化染色技术分析60PRAD组织及配对正常前列腺样本,证实COMP作为BCR相关基因的关键作用。结果显示PRAD组织中COMP表达显著高于正常组织(图8J),且复发样本中的表达水平较未复发样本进一步升高(图8A-I)。ROC曲线分析表明COMPPRAD诊断具有显著预测价值(图8K)。最终分析确认COMP在复发样本中高表达,且对PRAD患者复发具有强预测能力(图8L-M)。

(九)抑制COMP表达可抑制肿瘤进展

首先通过qRT-PCR验证了COMP siRNA在前列腺癌细胞中的敲除效率(图9A)。实验结果显示,COMP敲除显著抑制了前列腺癌细胞的增殖能力(图9B-C)。Transwell实验进一步表明,COMP敲除可明显降低前列腺癌细胞的迁移和侵袭能力(图9D-E)。为探究COMP在体内对肿瘤增殖和转移的作用,采用雄性BALB/c裸鼠构建了皮下移植瘤和肺转移模型(图9F)。与对照组相比,COMP敲除显著抑制了前列腺肿瘤的生长,具体表现为肿瘤体积和重量的明显减小(图9G-J)。免疫组化分析显示,COMP敲除导致肿瘤组织中Ki67染色显著减少(图9K-L)。随后,通过尾静脉注射建立肺转移模型,并利用活体成像技术定量评估转移负荷。结果显示,COMP敲除有效抑制了前列腺肿瘤的肺转移,裸鼠肺部荧光信号较对照组明显减弱(图9M-N)。

总结

本研究通过整合多组学数据和机器学习方法,系统性地揭示了COMP基因在PRAD生化复发(BCR)中的关键作用。通过WGCNA分析,首先鉴定出16BCR相关靶基因。聚类分析显示这些基因与前列腺癌预后、药物敏感性及免疫浸润显著相关。整合多种机器学习算法构建了稳健的诊断模型,该模型对前列腺癌展现出强大的预测能力。此外,基于LASSO算法构建的BCR相关预后模型也表现出良好的预测性能。在差异表达的BCR相关预后基因中,COMP被确认为关键调控因子。体内外实验均证实COMP对前列腺癌进展具有调控作用。值得注意的是,COMP作为兼具诊断和复发预测价值的双功能生物标志物展现出重要潜力。

【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.1k
粉丝0
内容580