今天小编和大家分享一篇2024年9月12日发表在Heliyon.期刊的文章《Identification of diagnostic markers and molecular clusters of cuproptosis-related genes in alcohol-related liver disease based on machine learning and experimental validation》。PMID: 39315155
酒精性肝病(Alcohol-related liver disease,ALD)是由长期大量饮酒引起的肝脏损伤,涵盖了一系列疾病,如酒精性脂肪肝、酒精性肝炎、肝硬化及肝硬化的并发症。在全球范围内,ALD是慢性肝病的主要病因之一,占美国肝硬化相关死亡的48%。在中国,ALD的发病率与美国相当,正成为导致中国肝病总体负担加重的重要因素。铜是一种细胞外元素,对骨髓和中枢神经系统的正常功能至关重要,并且是多种抗氧化酶(如超氧化物歧化酶)的辅助因子,因此铜代谢紊乱可能导致器官功能障碍。
关于揭示铜死亡与ALD潜在病理生理机制之间关系的研究相对较少。在该研究中,从GEO下载与ALD相关的数据,并进行机器学习等分析,以探索铜死亡相关基因(Cuproptosis-related genes,CRGs)与ALD之间的关系。
背景
ALD是由长期大量饮酒引起的肝脏损伤,涵盖了一系列疾病,如酒精性脂肪肝、酒精性肝炎、肝硬化及肝硬化的并发症。在全球范围内,ALD是慢性肝病的主要病因之一,占美国肝硬化相关死亡的48%。在中国,ALD的发病率与美国相当,正成为导致中国肝病总体负担加重的重要因素。
铜是一种细胞外元素,对骨髓和中枢神经系统的正常功能至关重要,并且是多种抗氧化酶(如超氧化物歧化酶)的辅助因子,因此铜代谢紊乱可能导致器官功能障碍。铜调节失常与肝病密切相关。肝豆状核变性是铜过载的一个经典例子,这是一种由ATP7B基因多种突变引起的常染色体隐性遗传病。研究表明,ALD患者存在铜代谢紊乱。酒精饮食可导致肝脏损伤,并降低HIF-1α、封闭蛋白、SOD1和GPX1基因的表达。研究还显示,饮食中缺铜可能加剧这些变化,而补铜则可能改善这些状况。此外,体外细胞实验表明,适当的铜补充可以促进细胞生长,减少活性氧(ROS)的产生。铜死亡是一种与多种疾病相关的新型细胞死亡方式,如非酒精性肝病、肝豆状核变性和肝细胞癌。
关于揭示铜死亡与ALD潜在病理生理机制之间关系的研究相对较少。因此,我们仍需要对ALD中CRGs的表达、诊断、免疫相关性及机制进行综合研究。在本研究中,从基因表达综合数据库(GEO)下载了与ALD相关的数据,并进行了机器学习等分析,以探索CRGs与ALD之间的关系。该研究鉴定了差异表达基因及其中的关键基因,随后构建了预测模型并进行了外部验证。最后,进行免疫浸润分析,评估相关药物。
方法
1.识别ALD中的CRGs;
2.ALD诊断标志物基因的鉴定;
3.评估ALD诊断标志物基因的诊断性能;
4.GSEA、GSVA及ssGSEA分析;
5.CRG聚类与免疫微环境之间的关联性探究;
6.CRG聚类、基因聚类与CRG评分之间的相关性探究;
7.CRG聚类、基因聚类与CRG评分之间的相关性探究;
8.基于标志基因的候选药物识别及ceRNA网络构建
9.小鼠ALD模型及细胞酒精干预模型中CRGs的表达情况。
结果
(一)识别ALD中的CRGs
使用包含28个ALD样本和7个对照样本(GSE28619和GSE103580)的两个批次标准化数据集,通过‘limma’包共鉴定出6234个差异表达基因(DEGs,p < 0.05)。DEGs的热图如图2A所示。DEGs的火山图如图S1所示,6234个DEGs的GO分析如图S2所示,KEGG分析如图S3所示。
此外,在6234个差异表达基因(DEGs)中,有38个与CRGs重叠,揭示出18个在ALD组和对照组之间存在显著差异的差异表达铜死亡相关基因(DE-CRGs),包括DLAT、ISCA2、GLRX5、NDUFV2、ACO2、NDUFA1、DPYD、DBT、LIPT1、NFE2L2、GLS、PDHB、PPAT、PLAT、CDKN2A、SLC31A1、NDUFA8和LIPA,如图2B所示。这18个DE-CRGs的染色体位置以圆形图展示(图2C)。在ALD中,有12个DE-CRGs(ISCA2、NDUFV2、ACO2、NDUFA1、LIPT1、GLS、PDHB、PPAT、PLAT、CDKN2A、NDUFA8和LIPA)上调,而6个(DLAT、GLRX5、DPYD、DBT、NFE2L2和SLC31A1)下调(图2D和E)。
使用STRING进行了蛋白质-蛋白质相互作用(PPI)分析,以探索这18个DE-CRGs之间潜在的相互作用,如图2F所示。这18个DE-CRGs之间的相关性如图2G所示。通过基因本体富集分析,包括生物过程、细胞组分和分子功能的跨基因富集,发现DE-CRGs与有氧呼吸、嘌呤核糖核苷酸生物合成、氧化还原酶和铁硫簇结合等通路相关。结果如图2H所示。此外,KEGG通路分析中的脂酸代谢、柠檬酸循环等通路如图2I所示。
(二)ALD诊断标志物基因的鉴定
鉴于ALD患者和健康对照者之间的个体差异性和异质性,从18个DE-CRGs中,利用LASSO和两个经过验证的机器学习模型(支持向量机递归特征消除SVM-RFE和随机森林RF)来鉴定候选的DE-CRGs,这些基因有助于预测ALD的诊断。LASSO鉴定出了8个基因(Fig. 3A和B)。SVM的特征数量为8(Fig. 3C)。分类器的最小误差为0.0,最大准确率为1.0(Fig. 3D)。对18个DE-CRGs进行了随机森林分析,其中3个基因的平均基尼减少量大于2(Fig. 3E和F)。然后,使用韦恩图来找出LASSO、SVM-RFE和随机森林分析中共同的关键基因。最终,确定了三个关键基因(DPYD、SLC31A1和DBT)(Fig. 3G)。
(三)评估ALD诊断标志物基因的诊断性能
为了评估DPYD、SLC31A1和DBT三个核心基因的预测效率,使用“rms”包构建ALD患者的列线图模型(Fig. 4A)。该列线图模型利用每个生物标志物的数值来预测ALD风险,校正曲线显示了预测概率与实际概率之间存在显著关联(Fig. 4B)。决策曲线分析(DCA)显示,该模型的净收益显著高于0,表明其具有很高的准确性,并能为医生提供决策依据(Fig. 4C)。临床影响曲线显示,该列线图模型具有很高的诊断能力(Fig. 4D)。ROC曲线分析显示,这三个标志物基因特征组合在诊断ALD时表现出高性能(AUC = 0.704,Fig. 4E)。这三个基因的单独预测ROC结果均超过0.83(Fig. 4F),且它们在两个数据集中的表达均降低(Fig. 4G和J)。在GSE142530和GSE155907数据集中,这三个基因组合的ROC曲线分别为0.670和0.800(Fig. 4H和K),同时展示这三个基因分别预测性能的ROC曲线(Fig. 4I和L)。这些结果表明,基于这三个标志物基因的模型可能对ALD具有强大的预测效力。
(四)GSEA、GSVA及ssGSEA分析
借助ssGSEA方法,对前述模型中涉及的三个基因的主要信号通路进行了识别。通过KEGG通路的GSEA分析,发现这三个基因与甘氨酸、丝氨酸、苏氨酸及视黄醇的代谢过程密切相关(图5A–C)。具体而言,DPYD与SLC31A1基因均参与到细胞色素P450的代谢活动中(图5B和C);而DBT与SLC31A1则与激素的生物合成有所联系(图5A和C)。此外,DPYD还涉及色氨酸的代谢,并展现出细胞色素P450对基因组层面的影响(图5B)。补充材料中的图S4至S6则详细展示了GO富集分析的GSEA结果。
GSVA分析揭示了基于这三个核心基因(DBT、DPYD、SLC31A1)表达水平划分的低表达与高表达亚型间存在着截然不同的活性通路。研究结果显示,DBT、DPYD及SLC31A1的过表达均与细胞外基质-受体相互作用紧密相关(图5D至F)。此外,DBT与SLC31A1的过表达还涉及到利什曼原虫感染、糖苷生物合成及病毒性心肌炎等生物学过程。值得注意的是,在高DPYD表达组中,半乳糖代谢及球型糖基生物合成通路呈现出活跃状态(图5E)。相反,DBT、DPYD及SLC31A1的低表达则与赖氨酸降解、色氨酸代谢、视黄醇代谢、苏氨酸代谢以及类固醇激素生物合成等一系列通路相关联(图5D至F)。GO富集分析的GSVA结果详见补充材料图S7至S9。
为了深入探究铜死亡是否通过调控免疫浸润来加速酒精性肝病(ALD)的进展,我们进一步开展了ssGSEA分析。分析结果显示,与正常肝组织相比,ALD患者的B细胞、CD8+ T细胞、NK细胞、辅助性T细胞及Th1细胞的数量均显著降低(图5G)。在免疫功能层面,ALD组的抗原呈递细胞(APC)共抑制功能、细胞溶解活性以及II型干扰素(IFN)反应评分均低于对照组(图5H)。特别地,图5F揭示了DPYD与II型IFN反应、Th1细胞及NK细胞之间存在显著关联;DBT则与MHC I类分子、CCR及树突状细胞(aDCs)密切相关。而SLC31A1则与B细胞、APC共抑制功能及CCR呈现出显著相关性(图5I)。
(五)CRG聚类与免疫微环境之间的关联性探究
采用R语言中的“ConsensusClusterPlus”软件包,基于三个关键的基因调节因子,对CRG聚类进行了细致的分类。在选定最优k值为2的条件下,成功地将28份ALD样本划分为了CRG聚类A与B两大类别(图6A至C)。对比结果显示,CRG聚类A中的DBT、DPYD及SLC31A1基因表达水平显著高于CRG聚类B(图6D)。同时,还利用热图直观地展示了两个CRG聚类间独特的基因表达特征(图6E)。此外,采用主成分分析(PCA)进一步验证了CRG聚类分类的合理性与准确性(图6F)。
鉴于ALD与免疫微环境之间的潜在联系,深入剖析了免疫细胞的浸润模式。如图6G所示,CRG聚类A与B之间存在显著的免疫细胞类型差异,这提示了两个聚类在免疫反应方面的不同。同时,还借助ssGSEA方法生成的热图,进一步验证了免疫细胞浸润与三个CRG调节因子表达谱之间的密切联系(图6H)。为进一步探索免疫细胞浸润与CRG之间的关系,我们同样采用了ssGSEA方法进行分析。分析结果显示,DPYD基因的表达水平与活化树突状细胞、自然杀伤细胞、自然杀伤细胞及单核细胞的数量呈负相关(图6I)。而SLC31A1基因则与未成熟树突状细胞的数量呈负相关,但与单核细胞的数量呈正相关(图6J)。另外,DBT基因的表达水平与多种免疫细胞,包括活化CD4 T细胞、树突状细胞、γδT细胞、未成熟树突状细胞、髓系来源抑制性细胞(MDSCs)、巨噬细胞、肥大细胞、浆细胞样树突状细胞、调节性T细胞、滤泡辅助性T细胞及Th1细胞的数量均呈负相关(图6K)。
(六)CRG聚类、基因聚类与CRG评分之间的相关性探究
在图7A中,展示基因聚类A与B之间共有的92个DEGs。为了与基因聚类的数量保持一致,将基因聚类的最优k值确定为2,如图7B至D所示。接着,我们利用热图揭示了这两个基因聚类间CRGs表达谱的差异(图7E)。具体而言,与基因聚类A相比,基因聚类B中的DBT、DPYD和SLC31A1基因表达水平呈现出上升趋势(图7F)。进一步分析发现,基因聚类A中六类免疫细胞的数量显著高于基因聚类B(图7G),这凸显了免疫微环境浸润的一个关键特征。为了直观比较CRGs聚类与基因聚类间的CRGs评分差异,采用了箱线图进行展示。结果显示,CRGs聚类A的CRGs评分低于CRGs聚类B(图7H),基因聚类A的CRGs评分也低于基因聚类B(图7I)。这些发现表明,不同CRGs聚类与基因聚类间的CRGs评分存在显著差异。为了更深入地理解CRGs评分、CRGs聚类与基因聚类之间的关系,利用R语言的“ggalluvial”软件包构建了桑基图(图7J)。
(七)基于标志基因的候选药物识别及ceRNA网络构建
图8 A-B
为了深入探究ALD的药物治疗方案,借助DGIdb数据库分析关键基因与药物间的相互作用。通过Cytoscape软件的分析,清晰地展示了遗传标志物与药物之间的相互作用关系(图8A)。此外,利用TargetScan、miRanda和miRDB数据库,围绕这三个核心基因构建了ceRNA网络,该网络涵盖了170个microRNA(miRNA)和138个长链非编码RNA(lncRNA)(图8B)。
(八)小鼠ALD模型及细胞酒精干预模型中CRGs的表达情况
图9A-H
HE染色和苏丹红O染色结果显示,ALD组小鼠肝脏出现脂肪变性(图9A)。同时,ALD组小鼠的谷草转氨酶和谷丙转氨酶水平显著高于对照组(图9B)。上述结果表明,成功构建ALD模型。通过qRT-PCR测定mRNA水平,与对照组相比,ALD组中三个关键基因的表达水平有所降低(图9C)。此外,通过Western blot分析,这三个基因在ALD肝脏组织和正常肝脏组织中的蛋白表达量存在显著差异(图9D-E)。尼罗红染色结果显示,乙醇组细胞内存在大量脂质沉积,表现为脂肪滴数量明显增多(图9F)。综上所述,这些结果共同表明已成功建立细胞酒精干预模型。同时,也使用qRT-PCR检测了三个CRGs核心基因的mRNA水平,结果显示与生理盐水组相比,乙醇组中DPYD、DBT的表达显著下调(图9G)。免疫印迹分析也证实了乙醇组中这些基因表达量相似的下降趋势(图9H)。这些结果表明,这三个特征性的CRGs可能在ALD的发生发展过程中发挥着重要的调控作用。