大数跨境

基于机器学习和实验验证的酒精相关性肝病中 cuproptosis 相关基因的诊断标志物和分子簇鉴定

基于机器学习和实验验证的酒精相关性肝病中 cuproptosis 相关基因的诊断标志物和分子簇鉴定 中科生信
2025-02-28
4
导读:基于机器学习和实验验证的酒精相关性肝病中 cuproptosis 相关基因的诊断标志物和分子簇鉴定
今天小编和大家分享一篇2024912发表在Heliyon.期刊的文章《Identification of diagnostic markers and molecular clusters of cuproptosis-related genes in alcohol-related liver disease based on machine learning and experimental validation》。PMID: 39315155
酒精性肝病(Alcohol-related liver diseaseALD)是由长期大量饮酒引起的肝脏损伤,涵盖了一系列疾病,如酒精性脂肪肝、酒精性肝炎、肝硬化及肝硬化的并发症。在全球范围内,ALD是慢性肝病的主要病因之一,占美国肝硬化相关死亡的48%。在中国,ALD的发病率与美国相当,正成为导致中国肝病总体负担加重的重要因素。铜是一种细胞外元素,对骨髓和中枢神经系统的正常功能至关重要,并且是多种抗氧化酶(如超氧化物歧化酶)的辅助因子,因此铜代谢紊乱可能导致器官功能障碍。
关于揭示铜死亡与ALD潜在病理生理机制之间关系的研究相对较少。在该研究中,从GEO下载与ALD相关的数据,并进行机器学习等分析,以探索铜死亡相关基因(Cuproptosis-related genesCRGs)与ALD之间的关系。

背景

ALD是由长期大量饮酒引起的肝脏损伤,涵盖了一系列疾病,如酒精性脂肪肝、酒精性肝炎、肝硬化及肝硬化的并发症。在全球范围内,ALD是慢性肝病的主要病因之一,占美国肝硬化相关死亡的48%。在中国,ALD的发病率与美国相当,正成为导致中国肝病总体负担加重的重要因素。
铜是一种细胞外元素,对骨髓和中枢神经系统的正常功能至关重要,并且是多种抗氧化酶(如超氧化物歧化酶)的辅助因子,因此铜代谢紊乱可能导致器官功能障碍。铜调节失常与肝病密切相关。肝豆状核变性是铜过载的一个经典例子,这是一种由ATP7B基因多种突变引起的常染色体隐性遗传病。研究表明,ALD患者存在铜代谢紊乱。酒精饮食可导致肝脏损伤,并降低HIF-1α、封闭蛋白、SOD1GPX1基因的表达。研究还显示,饮食中缺铜可能加剧这些变化,而补铜则可能改善这些状况。此外,体外细胞实验表明,适当的铜补充可以促进细胞生长,减少活性氧(ROS)的产生。铜死亡是一种与多种疾病相关的新型细胞死亡方式,如非酒精性肝病、肝豆状核变性和肝细胞癌。
关于揭示铜死亡与ALD潜在病理生理机制之间关系的研究相对较少。因此,我们仍需要对ALDCRGs的表达、诊断、免疫相关性及机制进行综合研究。在本研究中,从基因表达综合数据库(GEO)下载了与ALD相关的数据,并进行了机器学习等分析,以探索CRGsALD之间的关系。该研究鉴定了差异表达基因及其中的关键基因,随后构建了预测模型并进行了外部验证。最后,进行免疫浸润分析,评估相关药物。

方法

1.识别ALD中的CRGs;

2.ALD诊断标志物基因的鉴定;

3.评估ALD诊断标志物基因的诊断性能;

4.GSEA、GSVA及ssGSEA分析;

5.CRG聚类与免疫微环境之间的关联性探究;

6.CRG聚类、基因聚类与CRG评分之间的相关性探究;

7.CRG聚类、基因聚类与CRG评分之间的相关性探究;

8.基于标志基因的候选药物识别及ceRNA网络构建

9.小鼠ALD模型及细胞酒精干预模型中CRGs的表达情况。

结果

(一)识别ALD中的CRGs

使用包含28ALD样本和7个对照样本(GSE28619GSE103580)的两个批次标准化数据集,通过‘limma’包共鉴定出6234个差异表达基因(DEGsp < 0.05)。DEGs的热图如2A所示。DEGs的火山图如图S1所示,6234DEGsGO分析如图S2所示,KEGG分析如图S3所示。

图2A-I
此外,在6234个差异表达基因(DEGs)中,有38个与CRGs重叠,揭示出18个在ALD组和对照组之间存在显著差异的差异表达铜死亡相关基因(DE-CRGs),包括DLATISCA2GLRX5NDUFV2ACO2NDUFA1DPYDDBTLIPT1NFE2L2GLSPDHBPPATPLATCDKN2ASLC31A1NDUFA8LIPA,如2B所示。这18DE-CRGs的染色体位置以圆形图展示(2C)。在ALD中,有12DE-CRGsISCA2NDUFV2ACO2NDUFA1LIPT1GLSPDHBPPATPLATCDKN2ANDUFA8LIPA)上调,而6个(DLATGLRX5DPYDDBTNFE2L2SLC31A1)下调(2DE)。
使用STRING进行了蛋白质-蛋白质相互作用(PPI)分析,以探索这18DE-CRGs之间潜在的相互作用,如2F所示。这18DE-CRGs之间的相关性如2G所示。通过基因本体富集分析,包括生物过程、细胞组分和分子功能的跨基因富集,发现DE-CRGs与有氧呼吸、嘌呤核糖核苷酸生物合成、氧化还原酶和铁硫簇结合等通路相关。结果如2H所示。此外,KEGG通路分析中的脂酸代谢、柠檬酸循环等通路如2I所示。

(二)ALD诊断标志物基因的鉴定

图3A-F
鉴于ALD患者和健康对照者之间的个体差异性和异质性,从18DE-CRGs中,利用LASSO和两个经过验证的机器学习模型(支持向量机递归特征消除SVM-RFE和随机森林RF)来鉴定候选的DE-CRGs,这些基因有助于预测ALD的诊断。LASSO鉴定出了8个基因(Fig. 3AB)。SVM的特征数量为8Fig. 3C)。分类器的最小误差为0.0,最大准确率为1.0Fig. 3D)。对18DE-CRGs进行了随机森林分析,其中3个基因的平均基尼减少量大于2Fig. 3EF)。然后,使用韦恩图来找出LASSOSVM-RFE和随机森林分析中共同的关键基因。最终,确定了三个关键基因(DPYDSLC31A1DBT)(Fig. 3G)。

(三)评估ALD诊断标志物基因的诊断性能

图 4A-L
为了评估DPYDSLC31A1DBT三个核心基因的预测效率,使用“rms”包构建ALD患者的列线图模型(Fig. 4A)。该列线图模型利用每个生物标志物的数值来预测ALD风险,校正曲线显示了预测概率与实际概率之间存在显著关联(Fig. 4B)。决策曲线分析(DCA)显示,该模型的净收益显著高于0,表明其具有很高的准确性,并能为医生提供决策依据(Fig. 4C)。临床影响曲线显示,该列线图模型具有很高的诊断能力(Fig. 4D)。ROC曲线分析显示,这三个标志物基因特征组合在诊断ALD时表现出高性能(AUC = 0.704Fig. 4E)。这三个基因的单独预测ROC结果均超过0.83Fig. 4F),且它们在两个数据集中的表达均降低(Fig. 4GJ)。在GSE142530GSE155907数据集中,这三个基因组合的ROC曲线分别为0.6700.800Fig. 4HK),同时展示这三个基因分别预测性能的ROC曲线(Fig. 4IL)。这些结果表明,基于这三个标志物基因的模型可能对ALD具有强大的预测效力。

(四)GSEAGSVAssGSEA分析

图5 A-I
借助ssGSEA方法,对前述模型中涉及的三个基因的主要信号通路进行了识别。通过KEGG通路的GSEA分析,发现这三个基因与甘氨酸、丝氨酸、苏氨酸及视黄醇的代谢过程密切相关(5A–C)。具体而言,DPYDSLC31A1基因均参与到细胞色素P450的代谢活动中(5BC);而DBTSLC31A1则与激素的生物合成有所联系(5AC)。此外,DPYD还涉及色氨酸的代谢,并展现出细胞色素P450对基因组层面的影响(5B)。补充材料中的图S4S6则详细展示了GO富集分析的GSEA结果。
GSVA分析揭示了基于这三个核心基因(DBTDPYDSLC31A1)表达水平划分的低表达与高表达亚型间存在着截然不同的活性通路。研究结果显示,DBTDPYDSLC31A1的过表达均与细胞外基质-受体相互作用紧密相关(5DF)。此外,DBTSLC31A1的过表达还涉及到利什曼原虫感染、糖苷生物合成及病毒性心肌炎等生物学过程。值得注意的是,在高DPYD表达组中,半乳糖代谢及球型糖基生物合成通路呈现出活跃状态(5E)。相反,DBTDPYDSLC31A1的低表达则与赖氨酸降解、色氨酸代谢、视黄醇代谢、苏氨酸代谢以及类固醇激素生物合成等一系列通路相关联(5DF)。GO富集分析的GSVA结果详见补充材料图S7S9
为了深入探究铜死亡是否通过调控免疫浸润来加速酒精性肝病(ALD)的进展,我们进一步开展了ssGSEA分析。分析结果显示,与正常肝组织相比,ALD患者的B细胞、CD8+ T细胞、NK细胞、辅助性T细胞及Th1细胞的数量均显著降低(5G)。在免疫功能层面,ALD组的抗原呈递细胞(APC)共抑制功能、细胞溶解活性以及II型干扰素(IFN)反应评分均低于对照组(5H)。特别地,5F揭示了DPYDIIIFN反应、Th1细胞及NK细胞之间存在显著关联;DBT则与MHC I类分子、CCR及树突状细胞(aDCs)密切相关。而SLC31A1则与B细胞、APC共抑制功能及CCR呈现出显著相关性(5I)。

(五)CRG聚类与免疫微环境之间的关联性探究

采用R语言中的“ConsensusClusterPlus”软件包,基于三个关键的基因调节因子,对CRG聚类进行了细致的分类。在选定最优k值为2的条件下,成功地将28ALD样本划分为了CRG聚类AB两大类别(6AC)。对比结果显示,CRG聚类A中的DBTDPYDSLC31A1基因表达水平显著高于CRG聚类B6D)。同时,还利用热图直观地展示了两个CRG聚类间独特的基因表达特征(6E)。此外,采用主成分分析(PCA)进一步验证了CRG聚类分类的合理性与准确性(6F)。

图6 A-K
鉴于ALD与免疫微环境之间的潜在联系,深入剖析了免疫细胞的浸润模式。如6G所示,CRG聚类AB之间存在显著的免疫细胞类型差异,这提示了两个聚类在免疫反应方面的不同。同时,还借助ssGSEA方法生成的热图,进一步验证了免疫细胞浸润与三个CRG调节因子表达谱之间的密切联系(6H)。为进一步探索免疫细胞浸润与CRG之间的关系,我们同样采用了ssGSEA方法进行分析。分析结果显示,DPYD基因的表达水平与活化树突状细胞、自然杀伤细胞、自然杀伤细胞及单核细胞的数量呈负相关(6I)。而SLC31A1基因则与未成熟树突状细胞的数量呈负相关,但与单核细胞的数量呈正相关(6J)。另外,DBT基因的表达水平与多种免疫细胞,包括活化CD4 T细胞、树突状细胞、γδT细胞、未成熟树突状细胞、髓系来源抑制性细胞(MDSCs)、巨噬细胞、肥大细胞、浆细胞样树突状细胞、调节性T细胞、滤泡辅助性T细胞及Th1细胞的数量均呈负相关(6K)。

(六)CRG聚类、基因聚类与CRG评分之间的相关性探究

图7 A-J
7A中,展示基因聚类AB之间共有的92DEGs。为了与基因聚类的数量保持一致,将基因聚类的最优k值确定为2,如7BD所示。接着,我们利用热图揭示了这两个基因聚类间CRGs表达谱的差异(7E)。具体而言,与基因聚类A相比,基因聚类B中的DBTDPYDSLC31A1基因表达水平呈现出上升趋势(7F)。进一步分析发现,基因聚类A中六类免疫细胞的数量显著高于基因聚类B7G),这凸显了免疫微环境浸润的一个关键特征。为了直观比较CRGs聚类与基因聚类间的CRGs评分差异,采用了箱线图进行展示。结果显示,CRGs聚类ACRGs评分低于CRGs聚类B7H),基因聚类ACRGs评分也低于基因聚类B7I)。这些发现表明,不同CRGs聚类与基因聚类间的CRGs评分存在显著差异。为了更深入地理解CRGs评分、CRGs聚类与基因聚类之间的关系,利用R语言的“ggalluvial”软件包构建了桑基图(7J)。

(七)基于标志基因的候选药物识别及ceRNA网络构建

图8 A-B

为了深入探究ALD的药物治疗方案,借助DGIdb数据库分析关键基因与药物间的相互作用。通过Cytoscape软件的分析,清晰地展示了遗传标志物与药物之间的相互作用关系(8A)。此外,利用TargetScanmiRandamiRDB数据库,围绕这三个核心基因构建了ceRNA网络,该网络涵盖了170microRNAmiRNA)和138个长链非编码RNAlncRNA)(8B)。

(八)小鼠ALD模型及细胞酒精干预模型中CRGs的表达情况

图9A-H

HE染色和苏丹红O染色结果显示,ALD组小鼠肝脏出现脂肪变性(9A)。同时,ALD组小鼠的谷草转氨酶和谷丙转氨酶水平显著高于对照组(9B)。上述结果表明,成功构建ALD模型。通过qRT-PCR测定mRNA水平,与对照组相比,ALD组中三个关键基因的表达水平有所降低(9C)。此外,通过Western blot分析,这三个基因在ALD肝脏组织和正常肝脏组织中的蛋白表达量存在显著差异(9D-E)。尼罗红染色结果显示,乙醇组细胞内存在大量脂质沉积,表现为脂肪滴数量明显增多(9F)。综上所述,这些结果共同表明已成功建立细胞酒精干预模型。同时,也使用qRT-PCR检测了三个CRGs核心基因的mRNA水平,结果显示与生理盐水组相比,乙醇组中DPYDDBT的表达显著下调(9G)。免疫印迹分析也证实了乙醇组中这些基因表达量相似的下降趋势(9H)。这些结果表明,这三个特征性的CRGs可能在ALD的发生发展过程中发挥着重要的调控作用。


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读915
粉丝0
内容580