Construction and evaluation of a diagnostic model for Alzheimer’s disease based on mitophagy-related genes
(基于线粒体自噬相关基因构建和评估阿尔茨海默症诊断模型)
Scientific reports 综合性期刊3区,IF:3.8
摘要
阿尔茨海默症(AD)是最常见的痴呆症原因。线粒体自噬在神经退行性疾病和神经元生存中发挥着至关重要的功能,但线粒体自噬与AD之间的关系尚不明确。通过使用来自基因表达综合数据库(GEO)的两个数据集,基于单样本GSEA(ssGSEA)计算了AD样本与对照样本之间的线粒体自噬相关性分数。通过WGCNA和“limma”包筛选出与AD相关的线粒体自噬基因(MRGs)和差异表达基因(DEGs),并通过交集得到共同基因。这些重叠基因进一步进行了压缩,并采用递归特征消除(RFE)和LASSO分析进行诊断模型构建。基于受试者工作特征(ROC)曲线验证了诊断模型的可靠性。接着,建立了这些关键基因的转录因子(TF)-mRNA调控网络。最后,使用ssGSEA检查了所识别基因与细胞通路及免疫细胞浸润之间的关系。AD样本的线粒体自噬相关性分数明显低于对照组样本。在与AD患者具有最强线粒体自噬相关性的模块中,共筛选出12个MRG。功能富集分析显示,DEGs显著富集于突触功能相关的通路。基于GSE122063构建了一个诊断预测模型,并通过两个线粒体自噬相关基因(YWHAZ和NDE1)进行验证,ROC曲线下面积(AUC)大于0.7,验证了该模型具有较高的预测价值。转录因子-mRNA网络显示,四个转录因子(FOXC1、FOXL1、HOXA5和GATA2)受YWHAZ和NDE1基因的调控。免疫浸润分析表明,NDE1促进了大多数免疫细胞的浸润,而YWHAZ则主要抑制了大多数免疫细胞的浸润。当前研究结果增进了我们对AD中线粒体自噬作用的理解,为AD的未来研究和治疗开发提供了有价值的参考。
关键词:阿尔茨海默症,线粒体,WGCNA,生物标志物,诊断模型
结果详解
图1:通过WGCNA筛选与线粒体自噬相关的基因
使用线粒体自噬相关基因(MRGs)列表作为背景基因集,发现数据集中的所有AD样本的线粒体自噬相关性分数明显低于对照样本(图1A)。接下来,我们通过WGCNA识别了与AD患者线粒体自噬相关的基因模块,并将ssGSEA分数作为训练集中的特征进行分析。根据模块间的相关性,未能合并任何模块,并通过pickSoftThreshold函数确定软阈值β为12(R² = 0.9,图1B)。在模块中最少包含80个基因时,共识别出9个模块,且未发现明显的异常样本(图1C)。模块形态相关性的热图进行了可视化(图1D)。通过分析模块与线粒体自噬数据的关联,识别出具有临床重要性的模块。九个模块包含2932个基因,其中MEbrown模块与线粒体自噬的相关性最强(cor = 0.67,p = 1.17e−26),因此选择该显著模块进行进一步研究。使用棕色代表MEbrown模块,检测到模块特征(MM)与基因显著性(GS)之间的强正相关(cor = 0.66,p < 1.e−200,图1E)。随后,识别出39个与线粒体自噬密切相关的基因,且它们的GS和MM均大于0.75。这些基因被导入STRING数据库进行蛋白-蛋白相互作用(PPI)分析,去除无相互作用的基因(CONFIDENCE ≥ 0.4)。基因相互作用关系及其置信度得分显示在表S1中。最终,选择了12个基因作为模块化的线粒体自噬相关基因(MRGs)进行后续研究。
图2:差异表达基因(DEGs)识别与功能分析
共识别出417个差异表达基因(DEGs),其中257个基因下调,160个基因上调(图2A)。接下来,生成了AD样本和对照样本中前100个差异表达基因的基因表达热图,以探讨这些DEGs与临床特征(性别、年龄、≤ 80/ > 80岁)之间的关系。观察到上调基因与下调基因的表达模式呈负相关(图2B)。GO和KEGG功能富集分析显示,这些DEGs在生物过程(BP)方面显著富集于神经递质转运、神经递质分泌、突触小泡回收、信号释放和突触信号释放(图2C)。在细胞成分(CC)方面,这些基因主要富集于突触前区、谷氨酸能突触、跨神经元的突触、运输小泡膜和运输小泡(图2C)。在分子功能(MF)方面,DEGs最显著富集于结合、GTP酶活性、SNARE结合、钙调蛋白结合和蛋白C末端结合(图2C)。此外,DEGs还显著富集于间隙连接通路、胰岛素分泌、GABA能突触、长期增强和突触小泡循环等通路(图2D)。研究发现,这些基因显著富集于与突触功能相关的通路。
图3:筛选与线粒体自噬相关的特征基因:
通过取WGCNA衍生基因和差异表达基因(DEGs)的交集,最终识别出了五个重叠基因(图3A)。随后,使用LASSO回归和递归特征消除(RFE)技术对这五个基因进行了压缩。具体来说,在LASSO回归中,当λ值为0.1198712时,模型达到了最优值(图3B、C)。接着,使用RFE算法根据特征选择了五个候选基因,当模型误差最小时(图3D)。最后,通过将两个机器学习实验的交集,确定了YWHAZ和NDE1基因作为诊断标志物。
图4:诊断模型的构建与验证
基于YWHAZ和NDE1基因,在训练集GSE132903中构建了阿尔茨海默症(AD)的诊断预测模型。通过绘制ROC曲线,计算得出YWHAZ和NDE1的AUC值分别为0.777和0.793,两者均大于0.7(图4A)。这一结果表明,我们的标志基因能够有效地诊断AD。随后,ROC分析结果显示,两基因模型的曲线下面积(AUC)为0.796(图4B),表明该模型具有较强的预测能力。此外,YWHAZ在AD样本中的mRNA表达显著低于对照样本,而NDE1在AD样本中高度表达(图4C)。模型基因在区分AD与对照样本方面的预测稳定性在测试集GSE122063中得到了验证,且使用训练集的相同系数进行测试。结果显示,YWHAZ和NDE1在GSE122063数据集中均表现出较强的预测性能,YWHAZ和NDE1的AUC值分别为0.792和0.795(图4D)。在GSE122063测试中的预测结果也非常准确(AUC = 0.848,图4E),进一步确认了该诊断模型的可靠性。同样,YWHAZ在AD样本中的表达显著低于对照样本,而NDE1在AD样本中的表达显著高于对照样本(图4F)。这表明YWHAZ和NDE1基因在AD进展中可能发挥不同的调控作用。
图5:转录因子(TF)-mRNA调控网络分析
使用NetworkAnalyst在线工具预测了YWHAZ和NDE1基因的转录因子(TF),并利用JASPAR数据库构建了TF-mRNA相互作用网络。如图5所示,该网络由26个转录因子和2个核心基因组成。特别是,FOXC1、FOXL1、HOXA5和GATA2四个转录因子与YWHAZ和NDE1均相关,提示它们可能在AD中这两个标志基因的靶向作用中发挥重要作用。
图6:免疫细胞浸润及其与标志基因的相关性
免疫细胞浸润分析结果显示,对照样本中一半的免疫细胞,包括自然杀伤细胞、浆细胞样树突状细胞、效应记忆CD8 T细胞和1型T辅助细胞,显著高于AD样本(图6A、B,p < 0.05)。接下来,分析了免疫学评分与YWHAZ和NDE1基因表达之间的关系。结果表明,NDE1的表达与激活的CD4 T细胞、效应记忆CD4 T细胞、记忆B细胞、调节性T细胞以及2型T辅助细胞的浸润呈负相关(图6C,p < 0.05),而与其他免疫细胞类型的浸润呈正相关(图6C,p < 0.05)。YWHAZ的表达与激活的CD4 T细胞、效应记忆CD4 T细胞、记忆B细胞、2型T辅助细胞和嗜酸性粒细胞的浸润呈正相关,而与其他免疫细胞类型的浸润呈负相关(图6C,p < 0.05)。
图7:特征基因与通路的相关性分析
分析了YWHAZ和NDE1基因与通路得分之间的关系。结果发现,NDE1与MYC靶标v1、精子发生、胰腺β细胞和氧化磷酸化通路呈负相关,而与有丝分裂纺锤体、Wnt/β-连环蛋白信号通路、p53通路和Notch信号通路呈正相关(图7,p < 0.05)。另一方面,YWHAZ与Wnt/β-连环蛋白信号通路、p53通路、Notch信号通路和肌肉生成呈正相关,而与MYC靶标v1、氧化磷酸化、胰腺β细胞和精子发生通路呈负相关(图7,p < 0.05)。基于上述结果,推测YWHAZ和NDE1可能在AD的发生和发展中发挥不同的作用。
结论
本研究利用机器学习算法开发了一个基于与AD中线粒体自噬相关的两个标志基因的诊断模型。该模型能够准确预测AD患者的免疫细胞浸润水平和生物化学通路,这两个标志基因在AD和对照样本中均显示出强大的预测潜力。总之,研究线粒体自噬特征可能为探讨AD发生和发展机制提供理论指导。

