纯生信1个月发文，多种高通量分析技术，双疾病基因研究赶紧学起来！- 大数跨境

生信日报

2024-05-10

小记者又发现一篇突出的文献，迫不及待要给大家分享！这篇文章从接收到发布仅用了1个月时间，最后获1区5分。震惊！！！依我看来，这篇文章的确有不少闪光点，让我一一道来。

(1)在选题方面，非酒精性脂肪肝病（NAFLD）和阿尔茨海默病（AD）一直是热门研究疾病，基于研究发现这两种疾病存在关联性。对两者疾病关联的具体分子和机制进行研究，正是作者选题突出的地方。

(2)在研究方法方面，本文研究提供了一种新颖的方法论视角。通过综合运用差异表达基因分析（DEGs）、加权基因共表达网络分析（WGCNA）、机器学习技术、基因集富集分析（GSEA）及CIBERSORT算法，研究成功地识别出NAFLD与AD之间的共有生物标志物，揭示了它们在病理进程中的共同作用机制。多种高通量数据分析技术有机结合，为两种看似不相关的疾病提供了一个共同的分子联系框架，展示了生物信息学在现代医学研究中的关键作用。

话不多说，小记者立刻给大家解读这篇文献，懂事的人已经拿起小本本速度切换学习模式了。(ps：特征筛选+建模，实现0实验发文，想要复现思路的小伙伴记得call小记者哟，保你发文不迷路)。

过机器学习算法识别非酒精性脂肪肝和阿尔茨海默病的诊断基因特征和分子机制

期刊：ElsevierScience

影响因子：IF=5.0

发表时间：2024年3月

后台回复“999”获取原文献，文献编号240509

研究背景

非酒精性脂肪性肝病（NAFLD）和阿尔茨海默病（AD）是当前世界范围内健康问题的两个重点。研究发现，这两种疾病在发病机制上存在一定的联系，但是具体的分子机制尚不清楚。针对这一问题，作用利用生物信息学的方法，寻求在分子水平上理解NAFLD与AD的相互作用，以期为这两种疾病提供新的诊疗思路。

数据来源

数据集/队列	数据库	数据类型	详细信息
GSE89632、GSE63067	GEO	基因表达数据	NAFLD的发现队列
GSE132903、GSE1297	GEO	基因表达数据	AD的发现队列
GSE37031、GSE5281	GEO	基因表达数据	NAFLD和AD的外部验证队列

研究思路

本研究基于NAFLD以及AD的六个GEO数据集，使用"sva"R包的"ComBat"函数消除批效，后用"limma"包进行两组之间DEGs的识别，随后使用"FactoMineR"和"Factoextra"R包重建PCA图并进行可视化表示。为研究疾病与关键基因之间的潜在关系，作者进行WGCNA识别关键模块，并进行交叉分析。通过LASSO和RF两种算法，以及交叉分析获得两个共享的诊断基因，随后进行表达水平的检测。研究还采用了基因集富集分析（GSEA）和CIBERSORT算法来进一步探索与疾病相关的分子途径和免疫细胞分布。

图1 基本流程

主要结果

1.批次效应去除以及差异表达基因(DEGs)的识别

基于GEO数据库，作者选择了GSE89632和GSE63067作为NAFLD的发现队列，而GSE132903和GSE1297作为AD的发现队列GSE37031和GSE5281分别被用作NAFLD和AD的验证队列。该数据批效应结果显示显著（图2A和E），随后使用“sva”R包消除NAFLD组(图2B)和AD组(图2F)的批效应，并应用“limma”R包识别两组之间的DEGs。结果显示NAFLD共962个DEGs(经校正P<0.05，|log2FC|>0.5)，其中上调432个，下调530个。

AD中，共442个DEGs(经校正P<0.05，|log2FC|>0.5)，其中168个基因上调，274个基因下调。绘制NAFLD组(图2C)和AD组(图2G)的所有DEGs火山图，使用热图显示各组的集体DEGs(图2D和H)。

图2 NAFLD和AD的批次效应去除以及差异表达基因(DEGs)的识别

2.通过WGCNA识别关键模块

在研究中，作者使用了加权基因共表达网络分析（WGCNA）这一工具分析两组之间差异，构建了共表达网络，将参数β设为5(图3A）。并使用邻接函数生成邻接矩阵，以及使用TOM不相似性度量建立了分层聚类(图3B)。NAFLD组以P<0.05的模块为关键模版，共鉴定出16个共表达模块（图3C）。MEblack、MEblue、MEgrey60和MEmagenta表现出很强的正相关，而MEgreenyellow和MEyellow模块表现出很强的负相关，共包含5327个基因。AD组以β为9（图3D），检测出15个模块其中MEturquoise模块表现出最强的负相关性，包含2397个基因(图3E和F)。在两组中鉴定的关键模块内的基因可能作为潜在的候选细胞类型特异性标记。

图3 NAFLD和AD的WGCNA

3.机器学习分析

作者对DEGs与WGCNA鉴定的基因进行了交叉分享，鉴定出14个共享基因（图4），分别为GADD45G、NUPR1、CRYM、FOXC1、TAGLN、KCNK1、SCG5、BCL6、TSPAN13、MYOM1、TPM2、VCAN、RCAN2和NPTX2。随后，作者使用最小绝对收缩和选择算子（LASSO）和随机森林（RF）算法鉴定了NAFLD和AD的关键诊断性生物标志物。在NAFLD组中，LASSO算法确定了8个候选基因(图5A)，RF算法最终鉴定出7个基因。(图5B)，两种算法交集得六个共享生物标志物(GADD45G、NUPR1、CRYM、TAGLN、TSPAN13和MYOM1)(图5C)。在AD组中LASSO算法鉴定出6个特征基因(图5D)，RF算法确定7个基因（图5E），两种算法交集得四种常见基因生物标志物(GADD45G、NUPR1、BCL6和NPTX2)（图5F）。

图4 DEGs和WGCNA的共享基因

图5 应用机器学习算法鉴定NAFLD和AD的潜在诊断基因

4.关键诊断生物标志物的诊断意义和验证

作者通过交叉分析获得两个共享的诊断基因：GADD45G和NUPR1（图6A）。随后检测其在两组中的表达水平，结果显示GADD45G在NAFLD组中表达较低，在AD组中表达较高（图6B）。NUPR1在NAFLD组和AD组中表达较高(图6B)。两个验证组中这些枢纽基因的表达模式与发现组相同(图6C)。ROC分析方面，NAFLD组中GADD45G(曲线下面积[AUC]=0.874)和NUPR1(AUC=0.814)以及在AD组中GADD45G(AUC=0.735)和NUPR1(AUC=0.757)均表现出可靠的预测性能(图6D)。GADD45G在NAFLD(AUC=0.929)和AD(AUC=0.690)的验证队列中具有良好的诊断价值（图6E）。同样，NUPR1可以有效诊断NAFLD(AUC=0.929)和AD(AUC=0.688)(图6E)。这些结果证实了GADD45G和NUPR1可能分别是NAFLD和AD的关键分子。

图6 NAFLD和AD关键诊断基因的选择和验证

5.NAFLD与AD诊断图模型设计及疗效评估

基于两个关键基因GADD45G和NUPR1构建了NAFLD的诊断nomogram模型(图7A)。训练集的AUC评分为0.508(图7B)。验证集AUC达到0.893(图7B)。如图7C所示，训练集和验证集的校准曲线与标准曲线非常吻合，表明诺模图预测NAFLD的准确度很高。此外，DCA曲线和临床影响曲线(CIC）(图7D和E)表明风险型在训练集和验证集中都具有稳健性。这些发现表明风险评分型具有良好的预测能力，两个关键的诊断生物标志物在北美自由贸易区的发展中起着关键作用。AD诊断nomogram模型(图8A)方面，训练集ROC曲线AUC为0.689(图8B)，验证集AUC为0.733(图8B)，训练集和验证集都与标准曲线紧密贴合(图8C)，模图预测AD的准确度高。DCA和CIC(图8D和E)强调了风险模型在训练集和验证集中的鲁棒性。

图7 建立诊断图模型并评价其对NAFLD的鉴别效果

图8 建立诊断图模型并评价其对AD的鉴别效果

6.诊断基因的单基因GSEA分析

在NAFLD中，GSEA强调了GADD45G的多种作用(图9A)，确定与炎症(TNF和IL-17信号传导)、免疫反应相关的途径通路(疟疾)和细胞生长调节(河马途径)。代谢失调主要通过“丁酸代谢”、“肾素-血管紧张素系统”和“维生素的消化和吸收”等途径表现出来。此外，与“牛磺酸和亚牛磺酸代谢”相关。针对NAFLD中的NUPR1(图9B)，在基本的细胞过程中观察到富集，如“核糖体“碱基切除修复”和“DNA复制”，以及参与关键的信号通路，包括JAK-STAT”，“Hippo”和炎症通路(TNF和IL-17信号)。

在AD中，GSEA显示GADD45G与多种途径显著相关(图9C)，包括与致癌作用相关的途径(“基底细胞癌”、“慢性髓性白血病”)、神经变性(“Notch信号传导”“突触囊泡循环”)和免疫应答(“病毒蛋白与细胞因子和细胞因子受体的相互作用”)，同时代谢途径（“氧化磷酸化”和“牛磺酸”和“亚牛磺酸代谢”也有牵连。AD中的NUPR1(图9D)展示了与糖胺聚糖生物合成、Notch信号传导、组氨酸代谢和Hippo通路相关的途径富集。同时，代谢途径包括“氧化磷酸化”和“牛磺酸和亚牛磺酸代谢”等有相关性。

图9 诊断基因的单基因GSEA分析

7.探索免疫细胞浸润及其与共享诊断基因的相关性

作者使用CIBERSORT评估NAFLS和AD发现数据集中22种免疫细胞类型的比例（图10A和D）。在 NAFLD样本 (图10A)中，观察到T细胞滤泡辅助细胞、静止自然杀伤(NK)细胞、巨噬细胞M2和静息肥大细胞中观察到显著上调，而初始B细胞、NK细胞活化、单核细胞、巨噬细胞M0、树突状细胞活化、肥大细胞活化和中性粒细胞均显示上调。相反，AD样本(图10D)表现为T细胞CD4记忆静息、T调节性细胞 (Treg)、T细胞γδ和巨噬细胞M1的上调以及滤泡辅助T细胞、树突状细胞的激活和肥大细胞休眠的减少。进一步分析NAFLD样本中GADD45G和NUPR1表达与免疫细胞比例之间的相关性，发现存在关联（图10B和C）。GADD45G表达与中性粒细胞、肥大细胞活化和NK细胞活化呈正相关，而与浆细胞和肥大细胞静止负相关(图10B)。相比之下，NUPR1的表达与巨噬细胞M2和T细胞CD8呈正相关，与中性粒细胞、树突状细胞活化和初始B细胞负相关(图10C)。然而，在AD样本中，诊断标记基因与免疫细胞比例之间的相关性没有统计学意义。

文章小结

本研究运用了多种先进的生物信息学方法，包括差异表达基因分析（DEGs）、加权基因共表达网络分析（WGCNA）、机器学习算法、基因集富集分析（GSEA）以及CIBERSORT算法来探索非酒精性脂肪性肝病（NAFLD）和阿尔茨海默病（AD）之间的分子联系。其中，研究的亮点在于综合运用这些方法不仅识别了两种疾病的共享基因，还通过机器学习明确了具有高诊断潜力的生物标志物，并利用GSEA和CIBERSORT进一步解析了这些标志物在疾病相关途径和免疫细胞分布中的作用，这为理解这些疾病的共同病理基础提供了新见解，展示了多技术交叉融合在复杂疾病研究中的巨大潜力。小记者在线等诸位撩哦~奋力为大家在生信分析和方案设计等方面提供帮助。