非酒精性脂肪性肝病和阿尔茨海默病+诊断- 大数跨境

中科生信

2024-04-07

导读：非酒精性脂肪性肝病和阿尔茨海默病+诊断

今天小编和大家分析一篇24年3月发表在ClinicaChimicaActa（IF:5）杂志的文章《Identificationofdiagnosticgenesignaturesandmolecularmechanismsfornon-alcoholicfattyliverdiseaseandAlzheimer’sdiseasethroughmachinelearningalgorithms》作者在本研究中，通过差异分析和WGCNA分析，确定了14个NAFLD和AD共同发病机制的基因；通过机器学习识别得到了2个关键生物标志物，GADD45G和NUPR1。生物标志物GADD45G和NUPR1经过验证，在NAFLD和AD诊断模型中显示出高准确性。功能富集发现，GADD45G和NUPR1在炎症、DNA维持和代谢调节中发挥作用。此外，进行免疫细胞浸润，其中巨噬细胞在NAFLD和AD进展中发挥着重要作用。

背景：

非酒精性脂肪性肝病（NAFLD）是一种普遍的和多方面的肝脏疾病，从脂肪肝到肝硬化，并可能进展为肝细胞癌。全球发病率的上升引起了人们对其对肝脏健康的影响以及它与肝外表现（尤其是代谢和神经系统疾病）的关联的关注。阿尔茨海默病（Alzheimer'sdisease，AD）是一种神经退行性疾病，其特征是进行性认知能力下降、记忆力减退和神经元功能障碍，是全球最普遍的痴呆形式之一。尽管越来越多的证据表明NAFLD和AD之间存在强大的关联，但这种关联背后的特定分子和机制仍然难以捉摸。此外，缺乏对NAFLD和AD之间共享的诊断标志物和相互关联基因的全面了解。因此，本研究使用生物信息学方法系统地筛选了这些条件下的潜在生物标志物。本研究旨在提供理论基础，以促进对这些复杂且相互关联的健康状况的诊断和治疗策略的理解。

方法：

1. 数据下载。

GSE89632和GSE63067例用于NAFLD，而GSE132903例和GSE1297例被选为AD，作为初始分析和筛选的训练集。此外，GSE37031和GSE5281分别被用作NAFLD和AD的外部验证集；

2. 数据预处理

主成分分析（PCA）图中表示存在明显的批次效应。为了消除批次效应，利用归一化的mRNA表达数据和补充图1中给出的归一化结果，使用R包“limma”计算，使用R包“sva”的“ComBat”函数，以有效地消除观察到的批处理效应。在批量效应缓解之后，使用R包“FactoMineR”和“Factoextra”重建了PCA图并进行可视化表示。

3. 差异基因鉴定

在对每种疾病进行数据准备后，采用R包“limma”筛选NAFLD、AD和对照组之间的差异表达基因（DEGs），应用P<0.05的显著性阈值<|log2FC（倍数变化）|>0.5。接下来，使用热图和火山图表示直观地呈现每组的差异分析结果。

4. WGCNA

WGCNA是阐明基因相关模式的主要和最广泛采用的系统生物信息学方法。通过R包“WGCNA”，根据基因在样本中的共表达相似性，将基因系统地分组到模块中。此外，WGCNA提供了一种强大的方法，用于在这些模块和基因组之外的临床元件之间建立联系，从而促进相关功能网络中生物标志物和新分子的识别。进行WGCNA以揭示基因共表达模式并辨别基因模块与临床特征（NAFLD或AD与对照组相比）之间的相关性。对于每个疾病组，执行以下步骤：

（1）使用R包“ggplots2”，分层聚类分析识别样本中的异常值；（2）使用“pickSoftThreshold”函数区分1-30范围内的最优软实力参数；（3）拓扑重叠矩阵（TOM）的构造是通过将具有最合适β值的相关矩阵转换为邻接矩阵，然后将其转换为拓扑重叠矩阵来执行的；（4）采用平均连锁分层聚类，建立分层聚类树（连锁基因最拟合），然后应用动态砍树算法（minModuleSize=50）识别不同的基因模块。根据每组中定义的切割高度合并了类似的模块；（5）使用Pearson相关系数评估基因模块与临床表型（对照组、NAFLD或AD）之间的相关性。这种方法系统地揭示了共表达模式，并在基因模块和临床性状之间建立了有意义的关联，有助于全面了解NAFLD和AD等疾病的分子机制。

5. 共享基因鉴定

通过整合通过WGCNA鉴定的DEGs和模块基因，鉴定了在NAFLD和AD发病机制中起关键作用的关键共享基因。

6. 使用机器学习算法进行特征选择

为了鉴定NAFLD和AD共存的基因，使用最小绝对收缩和选择算子LASSO）和随机森林（RF）进行分析。

第一步是将先前确定的14个共享基因输入到每个疾病组的LASSO算法中。使用R包“glmnet”，构建一个具有10倍交叉验证的回归模型。将“family”参数设置为“二项式”，并通过“lambda.min”确定最佳lambda值。然后可视化14个特征的LASSO系数的对数分布。接下来，绘制偏似然差（二项式偏差）和对数（λ）曲线。计算最低标准品中1se（1-SE标准品）的最佳值。使用R包“randomForest”对重要基因进行分类。决策树算法识别最关键的变量。为发现队列构建了一个包含500棵树的RF模型，并使用交叉验证误差确定最佳树的数量。按重要性对基因进行排序，并为14个共享基因生成一个图。对于NAFLD，显著性阈值设置为2，而对于AD，将其设置为8以最终确定结果。随后，两种算法的结果相交，揭示了NAFLD组的六个常见基因和AD组的四个常见基因，维恩图所示。基于这些共同基因的交叉点，确定了两个基因作为潜在的疾病诊断靶点。为了评估这些基因的诊断准确性，使用“pROC”R包构建受试者工作特征（ROC）曲线，并使用“ggplot2”包显示。该评估是在发现和验证队列中进行的。

7. 列线图的建立和评估

列线图是整合多种指标以预测疾病发作和进展的有效工具。基于关键基因，用R包“rms”开发了一个列线图模型。为了评估遗传特征和列线图模型的性能，使用“pROC”R包进行了ROC分析。确定列线图的灵敏度和精密度，并使用独立的验证集验证。采用校准曲线对列线图模型的预测精度进行评价，并在验证集上进行验证。此外，使用R包“ggDCA”同时生成决策曲线分析（DCA）曲线。这项综合分析旨在评估该模型的临床效用，并深入了解其在临床环境中的潜在应用。

8. 基因集富集分析（GSEA）

为了更深入地了解与NAFLD和AD中生物标志物相关的潜在机制，根据GADD45G和NUPR1的表达中位数将样本分为两组。使用GSEA（https://www.gsea-msigdb.org/gsea/index.jsp），旨在阐明这些组中的基因是否在生物学相关过程中表现出显得富集。注释的c2.cp.v7.2.symbols.gmt作为参考基因集，FDR<0.05时具有统计学意义。

9. 免疫浸润分析

每个疾病样本都使用CIBERSORT进行分析，CIBERSORT是一种辨别免疫细胞相对水平的可靠方法。CIBERSORT算法利用基因表达数据，准确解析免疫细胞组成。使用具有1000次迭代的CIBERSORT，根据LM22基因特征量化了22种不同类型的免疫细胞。对患病样本和正常样本中的免疫细胞浸润进行了比较分析。接下来，利用Spearman相关系数对诊断性生物标志物的表达水平与浸润免疫细胞数量进行相关性分析。

研究结果：

1.DEG的识别

在进行生物信息分析之前，对收集到的数据集中的批次效应进行了评估，结果显示两种疾病数据集都有明显的批次效应（图2A和E）。使用R包“sva”消除NAFLD（图2B）和AD组（图2F）中的批次效应。随后，应用“limma”R包来识别两组之间的DEG。对于NAFLD，鉴定出962个DEGs（校正P<0.05，|log2FC|>0.5），包括432个上调基因和530个下调基因。在AD中，鉴定出442个DEGs（校正P<0.05，|log2FC|>0.5），其中168个上调基因和274个下调基因。火山图显示了NAFLD（图2C）和AD（图2G）组中的所有DEG。使用热图可视化了各组的DEG（图2、D和H）。与NAFLD和AD相关的DEGs可能在其发生和发展中起关键作用。

2.通过WGCNA识别关键模块

为了研究疾病与关键基因之间的潜在相关性，进行了WGCNA分析，并分析了两组之间的差异表达。使用软阈值方法构建了一个共表达网络，其中参数β在维持无标度拓扑中起着至关重要的作用。由于基于基因表达数据的生物网络可能是无标度的，因此NAFLD组的R2>0.85表示无标度拓扑结构，β设置为5（图3A）。使用邻接函数，生成了一个邻接矩阵，并使用TOM差异度量建立了分层聚类（图3B）。P<0.05的模块被认为是关键模块。如图3C所示，共鉴定了16个共表达模块。其中，MEblack、MEblue、MEgrey60和MEmagenta表现出较强的正相关，而MEgreenyellow和MEyellow模块表现出较强的负相关，共包含5327个基因。同样，将WGCNA应用于AD组，确定β=9是软实力的最佳值（图3D）。确定了15个模块，其中绿松石模块表现出最强的负相关，包含2397个基因（图3E和F）。在两组中鉴定的关键模块中的基因可以作为潜在的候选细胞类型特异性标记物。

3.共享基因的鉴定

为了研究NAFLD和AD的共同发病机制，进行了前面提到的DEGs与WGCNA鉴定的基因之间的交叉分析。如图4所示，鉴定出14个基因（GADD45G、NUPR1、CRYM、FOXC1、TAGLN、KCNK1、SCG5、BCL6、TSPAN13、MYOM1、TPM2、VCAN、RCAN2和NPTX2）。假设这14个基因可能与NAFLD和AD的发病机制有关，并且具有潜在的共同关系（图4）。

4.通过机器学习算法发现常见的诊断生物标志物

为了进一步选择具有显著特征值的候选诊断基因靶点对疾病组和对照组进行分类，基于上述14个共享基因，采用两种算法（LASSO和RF）。在NAFLD组中，LASSO回归算法确定了8个对诊断有重大影响的潜在候选基因（图5A）。为了进一步完善诊断生物标志物的选择，RF机器学习算法根据每个基因的可变重要性对14个常见基因进行排序，其中2个作为重要性筛选的阈值，从而鉴定出7个基因。（图5B）。通过对两种算法的结果进行交叉，为NAFLD组建立了一组六种共享生物标志物（GADD45G、NUPR1、CRYM、TAGLN、TSPAN13和MYOM1）（图5C）。同样，LASSO算法在AD组中鉴定了六个特征基因（图5D）。图5E显示基于RF结果的7个基因（重要性>8）。使用两种算法获得的四种常见基因生物标志物（GADD45G、NUPR1、BCL6和NPTX2）的交集如图5F所示。

5.关键诊断生物标志物的诊断意义和验证

为了全面了解NAFLD和AD之间的关系，对NAFLD和AD组的机器学习结果进行了交叉分析，揭示了两个共同的诊断基因：GADD45G和NUPR1（图6A）。通过分析这些共享诊断基因的表达模式和进行ROC曲线分析来评估这些共享诊断基因的预测和鉴别能力。最初，检查了NAFLD和AD发现队列中GADD45G和NUPR1的表达水平。图6B显示GADD45G在NAFLD组中表达较低，在AD组中表达较高，而NUPR1在NAFLD和AD组中表达较高（图6B）。两个验证组中这些枢纽基因的表达模式与发现队列相同，NAFLD组的GADD45G降低，AD组增加，NAFLD组和AD组的NUPR1增加（图6C）。

接下来，进行ROC分析，评估两个靶基因在NAFLD和AD诊断中的特异性和敏感性。NAFLD生物标志物的结果良好，GADD45G（曲线下面积[AUC]=0.874）和NUPR1（AUC=0.814）表现出强大的预测性能。同样，在AD组中，GADD45G（AUC=0.735）和NUPR1（AUC=0.757）显示出可靠的预测能力（图6D）。图6E表明GADD45G在NAFLD（AUC=0.929）和AD（AUC=0.690）的验证队列中具有良好的诊断价值。同样，NUPR1可以有效诊断NAFLD（AUC=0.929）和AD（AUC=0.688）（图6E）。这些结果证实了GADD45G和NUPR1分别作为NAFLD和AD中关键鉴别分子的潜力。

6.设计具有疗效评估的NAFLD和AD诊断列线图模型

为了提高诊断和预测效果，基于两个枢纽基因GADD45G和NUPR1构建了NAFLD的诊断列线图模型（图7A）。为每个危险因素分配一个分数，并将这些指标的累积分数用作总分，以预测每个患者发生NAFLD的概率。ROC曲线分析显示，训练集中风险评分的AUC为0.508（图7B）。同样，当应用验证数据集绘制ROC曲线时，风险评分的AUC达到0.893（图7B）。如图7C所示，训练集和验证集中的校准曲线与标准曲线非常吻合，表明列线图在预测NAFLD方面的准确性很高。此外，DCA曲线和临床影响曲线（CIC）（图7D和E）表明风险模型在训练集和验证集中都具有稳健的性能。这些发现表明风险评分模型具有良好的预测能力，两个关键的诊断生物标志物在NAFLD的发展中起着关键作用。

开发了基于两个关键枢纽基因GADD45G和NUPR1的AD诊断列线图模型（图8A）。对每个已确定的危险因素进行评分，并使用累积评分来预测每位患者发生AD的可能性。ROC曲线分析显示，训练集中的曲线下面积（AUC）为0.689（图8B）。同样，应用验证数据集的风险评分产生了0.733的AUC（图8B）。如图8C所示，训练集和验证集都紧贴标准曲线，证实了列线图在预测AD方面的准确性。此外，DCA和CIC（图8D和E）强调了风险模型在训练集和验证集中的稳健性能。这些结果突出了风险评分模型的良好预测能力，并强调了两种已确定的诊断生物标志物在AD发展中的关键作用。

7.诊断基因的单基因GSEA

进行GSEA以阐明GADD45G和NUPR1在NAFLD和AD中的参与（图9）。在NAFLD中，GSEA强调了GADD45G的不同作用（图9A），确定了与炎症（TNF和IL-17信号传导）、免疫反应（疟疾）和细胞生长调节（Hippo通路）相关的通路。代谢失调通过“丁酸代谢”“肾素-血管紧张素系统”和“维生素消化和吸收”等途径突出显示。此外，与“牛磺酸和次牛磺酸代谢”的关联表明了在氧化应激缓解中的潜在作用。对于NAFLD中的NUPR1（图9B），在“核糖体”“碱基切除修复”和“DNA复制”等基本细胞过程中观察到富集，并参与关键信号通路，包括“JAK-STAT”“Hippo”和炎症通路（TNF和IL-17信号传导）。在AD中，GSEA显示出GADD45G与多种途径的显著关联（图9C），包括与癌变（“基底细胞癌”“慢性粒细胞白血病”）、神经退行性变（“Notch信号传导”“突触囊泡循环”）和免疫反应（“病毒蛋白与细胞因子和细胞因子受体的相互作用”）相关的途径。“氧化磷酸化”和“牛磺酸和次牛磺酸代谢”等代谢途径也与此有关。AD中的NUPR1（图9D）在与糖胺聚糖生物合成、Notch信号传导、组氨酸代谢和Hippo通路相关的通路中表现出富集。代谢途径，包括“氧化磷酸化”和“牛磺酸和次牛磺酸代谢”，以及有趣的关联，如“尼古丁成瘾”。

8.探索免疫细胞浸润及其与共享诊断基因的相关性

富集分析显示，枢纽基因GADD45G和NUPR1与炎症和免疫过程之间存在潜在联系。这些发现促使使用CIBERSORT对不同组中免疫细胞的丰度进行全面调查，目的是阐明这些枢纽基因与NAFLD和AD中免疫细胞浸润之间的相关性。使用CIBERSORT，评估了NAFLD和AD发现数据集中22种免疫细胞类型的比例，如图10A和D所示。在NAFLD样品（图10A）中，在T细胞滤泡辅助细胞、静息自然杀伤（NK）细胞静息、巨噬细胞M2和肥大细胞静息中观察到显著的上调，而B细胞幼稚，NK细胞激活，单核细胞，巨噬细胞M0，树突状细胞激活，肥大细胞激活，中性粒细胞上调。相反，AD样品（图10D）表现出T细胞CD4记忆静息、T细胞调节（Tregs）、T细胞γδ和巨噬细胞M1的上调，同时T细胞滤泡辅助细胞、树突状细胞激活和肥大细胞静息减少。

补充数据1.docx

【声明】内容源于网络

中科生信

中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

内容 580

粉丝 0

中科生信中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

总阅读1.5k

粉丝0

内容580