今天小编和大家分析一篇2024年4月发表在Sci Rep(IF:4.0)杂志的文章《Unveiling the link between lactate metabolism and rheumatoid arthritis through integration of bioinformatics and machine learning》。类风湿性关节炎 (RA) 是一种持续的自身免疫性疾病,其特征是滑膜炎和关节损伤。最近的研究结果表明与乳酸代谢异常有潜在联系。本研究旨在鉴定 RA 中的乳酸代谢相关基因 (LMRG),并探讨它们与 RA 免疫分子机制的相关性。RA 滑膜组织样本的基因表达谱数据来自基因表达综合 (GEO) 数据库。通过获取常见的LMRD并通过 SVM 模型选择基因集合来获得生物标志物。进行功能富集分析,然后进行免疫浸润分析和蛋白质-蛋白质相互作用网络。结果显示,作为与 RA 中乳酸代谢相关的可能标志物,KCNN4 和 SLC25A4 可能参与调节对 RA 的免疫反应中的巨噬细胞功能,而 GATA2 参与 DC 细胞的免疫机制。总之,本研究利用生物信息学分析和机器学习来识别与 RA 中乳酸代谢相关的生物标志物,并检查它们与免疫细胞浸润的关系。这些发现为 RA 的潜在诊断和治疗靶点提供了新的视角。
背景
类风湿性关节炎 (RA) 是一种系统性自身免疫性疾病,临床上表现为软骨和骨骼破坏,经常导致残疾和寿命缩短。据估计,RA 的全球患病率为 0.3-1%,男女比例为 1:6。亚太地区的 RA 发生率约为 0.3-0.5%。该地区庞大的人口对 RA 的经济负担和医疗保健资源的利用构成了相当大的挑战。由于 RA 初始阶段 CD4+ T 细胞的持续生长,不同的免疫细胞(如滑膜成纤维细胞、单核细胞、巨噬细胞和树突状细胞)可能会浸润并受到增殖和分化的刺激。这个过程会产生许多促炎因子、趋化因子和血管生成因子。最近对该领域文献的检查发现,乳酸已被公认为 RA 的可能指标。乳酸可能作为一种活性物质在 RA 患者中发挥作用,滑膜中淋巴细胞明显浸润,导致 CD4+ T 细胞转变为促炎状态并加剧疾病。乳酸主要在细胞质中产生,这是由于缺氧或快速分裂细胞中糖酵解速率的增加。积累的乳酸被带到周围区域,在那里它有可能进入各种细胞,包括 CD4+ T 细胞、巨噬细胞、树突状细胞和破骨细胞。乳酸有两种可能的作用。一方面,活性免疫细胞更喜欢乳酸,作为支持其活性的一种手段。相反,组织微环境中乳酸的积累起到信号分子的作用,限制免疫细胞的功能。因此,靶细胞可能会发生分化和激活,从而影响其性能并最终导致 RA 的发展。尽管如此,RA 中乳酸代谢和免疫细胞浸润的确切分子过程仍不确定。因此,寻找生物标志物对于使用免疫疗法识别和治疗 RA 具有巨大意义。
越来越多的研究集中在免疫浸润在 RA 进展中的关键意义上。RA 中的大多数炎症浸润由滑膜升华的髓系病理型组成,包括单核细胞和/或巨噬细胞。关节组织中巨噬细胞浸润的程度与血流中单核细胞衍生的细胞因子水平之间存在正相关。此外,识别与 RA 诊断相关的基因在很大程度上依赖于生物信息学分析和机器学习技术。先前的生物信息学调查显示,CLP1 可以通过修饰免疫细胞浸润来显着影响 RA 的进展。不应低估 LSP1、GNLY 和 MEOX2 在诊断和治疗 RA 方面的潜在有用性,以及免疫细胞浸润对 RA 发展和发展的潜在影响。最近的一项研究发现,GZMA-Tfh 细胞、CCL5-M1 巨噬细胞和 CXCR4 记忆激活的 CD4+ T 细胞/Tfh 细胞可能会影响 RA 的发生和发展,特别强调 GZMA-Tfh 细胞在 RA 发病机制的初始阶段。然而,RA 中乳酸代谢和免疫细胞浸润的分子过程知之甚少。有必要进一步检查免疫细胞浸润并探索与其相关的潜在治疗靶点。
该研究利用了从 GEO 数据库获取的 RA 患者且没有健康问题的滑膜组织的微阵列数据集。该数据集用于筛选与乳酸代谢相关的基因。此外,采用生物信息学分析和机器学习,使用 CIBERSORTx 和 ssGSEA 两种算法进行免疫浸润分析。目的是确定免疫细胞浸润和潜在生物标志物的差异,并探索免疫细胞与乳酸代谢相关基因之间的联系以及 RA 进展期间乳酸代谢在免疫细胞浸润中的作用。
方法:
1.数据和样本来源
2.鉴定差异表达基因
3.支持向量机 (SVM) 筛选模型
4.基因本体论 (GO) 和京都基因与基因组百科全书 (KEGG)
5.基因集富集分析 (GSEA)
6.基因集变异分析 (GSVA)
7.免疫浸润分析
8.蛋白质-蛋白质相互作用 (PPI)
9.RNA-miRNA、mRNA-TF、mRNA-药物、mRNA-RBP 的预测网络
10.统计分析
研究结果
技术路线图

图 1 显示了流程图。最初,与 RA 相关的 GSE1919、 GSE29746 和 GSE55235 数据集被批量去除效应。随后,获得合并的 RA 数据集并进行分析,将 RA 组与对照组进行比较。筛选和交叉满足 |logFC|> 0 和 P < 0.05 标准的 DEGs 和 LMRGs 以得出 LMRDEGs。图表展示了比较,我们分析了重要基因的染色体位置和功能相似性,对 RA 数据集中的这些基因表达进行了相关性分析。使用 GO 和 KEGG 方法分析关键基因。随后,使用 CIBERSORTx 和 ssGSEA 两种算法对 RA 数据集中的所有样本进行 GSEA 、 GSVA 和免疫浸润分析。接下来,我们利用 RA 数据集中的关键基因为样本创建 LMRGs 评分。随后,我们根据表型评分中位数将 RA 组样本分为高组和低组。最后,我们使用 CIBERSORTx 和 ssGSEA 算法对这些分类数据分析了免疫浸润。接下来,我们利用关键基因在 RA 数据集的 RA 组中建立疾病亚类别。然后,将结果分为两个集群: cluster1 和 cluster2。随后,我们使用 CIBERSORTx 和 ssGSEA 两种算法对该组进行了免疫浸润分析。我们通过从 STRING 数据库中选择置信度阈值为 0.150 的必需基因来构建 PPI 网络。我们将与其他基因相互作用的蛋白质基因输入到 GeneMANIA 数据库中。最后,我们从 ENCORI 数据库中收集信息,以创建重要基因的 mRNA-miRNA 和 mRNA-RBP 相互作用网络。此外,我们利用来自 ChIPBase3.0 数据库的数据构建了 mRNA-TF 相互作用网络,并从 DGidb 数据库获取数据以建立关键基因的 mRNA-药物相互作用网络。
RA 数据集中 LMRG 表现的变化

RA 数据集 GSE1919、 GSE29746 和 GSE55235 进行了批量效应去除处理,产生了合并的数据集 RA 数据集。共有 2,721 个基因满足 |logFC |> 0 标准,P < 0.05。在这些基因中,1368 个基因在 RA 组中高表达,其余 1353 个基因在 RA 组中低表达。生成了一张火山图(图2A) 可视化 RA 数据集的差分分析结果。我们通过将获得性基因与表达方式不同的基因与 LMRG 进行比较,成功鉴定了 42 个 LMRDEGs。此外,维恩图(图2B) 的创建是为了直观地表示交叉基因。我们使用 SVM 从 RA 数据集中筛选了关键基因。模型结果(图2C) 揭示了 16 个基因 (CD46 、 FLI1 、 GATA2 、 HIBCH 、 INPP5K 、 KCNN4 、 NDUFB3 、 NDUFS3 、 PC、 PIGA 、 SCO2。(SLC16A7、SLC25A4、TCIRG1、TSFM、UQCRQ)。接下来,我们检查了 RA 数据集中 RA 组和对照组之间 16 个 LMRDEGs 的表达水平变化。图2D 比较图表的形式显示了研究结果。结果显示,14 个基因 (FLI1 、 GATA2 、 INPP5K 、 KCNN4 、 NDUFB3 、 NDUFS3 、 PC、 PIGA 、 SCO2、 SLC16A7、 SLC25A4、 TCIRG1 、 TSFM 和 UQCRQ )在两组间表现出统计学意义差异 (P < 0.05)。这 14 个基因在后续分析中将被视为关键基因。表 S2 描述了有关每个基因的详细信息。我们注释了它们的位置并创建了染色体位置图,以检查这 14 个关键基因在人类染色体上的位置(图 2E)。图谱显示基因 FLI1 、 NDUFS3 、 PC 和 TCIRG1 位于 11 号染色体上,而 SLC16A7 和 TSFM 位于 12 号染色体上。其余的关键基因分散在各种染色体上。热图(图2F) 的 API 中,用于显示 RA 数据集中的 14 个关键基因表达。
GO 和 KEGG

对 14 个基因进行了 GO 基因功能富集分析,以检查与 RA 的 14 个特定基因相关的生物过程、分子功能、细胞成分和生物途径。根据 P 值小于 0.05 和 FDR 值(q 值)小于 0.25 筛选富集条目。研究结果表明,14 个主要基因主要集中在产生前体代谢物和能量 (GO 0006091) 的生物过程中,通过有机化合物的氧化 (GO 0015980) 获取能量,呼吸电子传递链 (GO 0022904) 以及 RA 中的其他生物过程。关于细胞成分,它们存在于线粒体内膜 (GO 0005743)、含线粒体蛋白的复合物 (GO 0098798)、跨膜转运蛋白复合物 (GO 1902495) 和其他生物过程中。此外,在分子功能方面,它们表现出活性跨膜转运蛋白活性 (GO 0022804)、NADH 脱氢酶(泛醌)活性 (GO 0008137)、NADH 脱氢酶(醌)活性 (GO 0050136) 和其他分子功能。之后,对 14 个重要基因进行 KEGG 富集分析(补充表 S3)。研究结果表明 KEGG 通路中 14 个关键基因显著富集,包括氧化磷酸化 (hsa00190)。直方图(图3A) 和发散网络图(图3B) 显示 GO 和 KEGG 富集分析结果。接下来,我们结合了对 14 个关键基因的 logFC GO 和 KEGG 富集分析。气泡图(图3C) 和弦图(图3D) 显示关节 logFC 的 GO 和 KEGG 富集分析结果。此外,通路图描绘了 KEGG 通路氧化磷酸化 (hsa00190)(图 3E).
GSEA

进行了 GSEA 以检查基因表达水平对 RA 中 RA 组和对照组之间差异的影响。P < 0.05 的显着性水平和 FDR 值(q 值)< 0.25 被用作显着富集的标准,以建立功能之间的关系(补充表 S4)。在山图(图 4A) 和通路图(图 4B-H),我们提出了显著富集的通路,包括 PI3KCI 通路(图 4B),IL12 STAT4 通路(图4C)、TGF-β 信号通路(图4D)、MAPK 信号通路(图4E)、HIPPO 信号调控通路(图 4F),通过 PI3K 激活 NTRK3 信号(图4G) 和 FZD4 的 WNT5A 依赖性内化(图4H)。
GSVA

对 RA 数据集中所有基因的基因表达数据进行了 GSVA,以研究 RA 组和对照组之间特征基因集的变异。GSVA 研究结果表明 RA 组和对照组之间 20 个标志性基因集存在差异(P 值< 0.05,如图5A). 我们创建了一个比较图表(图 5B) 用于 20 个特征基因集,以说明表达水平的变化。分析显示,在至少 19 个标志性基因集中,RA 组和对照组之间存在统计学意义差异 (P 值< 0.05)。
CIBERSORTx 免疫浸润(RA/对照)

采用 CIBERSORTx 算法来评估 RA 数据集样本中 22 种不同免疫细胞类型的丰度,以研究 RA 数据集中 RA 组和对照组之间免疫浸润的变化。直方图说明了使用 CIBERSORTx 算法的样本中免疫细胞浸润丰度的分布(图 6A)接下来,我们创建了一个比较图表,说明了 RA 数据集中 RA 组和对照组之间免疫浸润的差异(图 6B)结果表明,八种不同类型的免疫细胞 (浆细胞、静息记忆 CD4 T 细胞、调节性 T 细胞 (Tregs)、巨噬细胞 M1、巨噬细胞 M2、静息肥大细胞、肥大细胞活化、嗜酸性粒细胞、巨噬细胞 M0、肥大细胞活化、中性粒细胞)具有统计学意义方差 (P < 0.05)。热图(图 6C) 说明了 8 种免疫细胞和 14 个关键基因的浸润水平之间的相关性。此外,相关热图(图 6D) 显示基因 UQCRQ 与活化的肥大细胞之间以及基因 SLC25A4 与静息肥大细胞之间存在显著的正线性相关 (r > 0,P < 0.05)。
ssGSEA 免疫浸润 (RA/对照)

采用 ssGSEA 算法计算 RA 数据集样本中存在的 28 种不同免疫细胞类型的丰度,以确定 RA 数据集中 RA 组和对照组之间免疫浸润的方差。结果表明,RA 组和对照组之间的浸润丰度存在显着差异(图 7A) (P < 0.05) 的 23 种免疫细胞类型。接下来,我们生成了一张热图,说明了免疫细胞丰度与浸润统计显着性之间的相关性(图 7B)。此外,我们还创建了一个相关热图来检查这些免疫细胞与 14 个关键基因之间的关系(图 7C)。结果表明,这些免疫细胞之间存在显着的有利线性关联 (r > 0),基因 (PC、PIGA 和 SLC25A4) 与这些免疫细胞之间存在显着的正线性相关 (r > 0)。总之,创建了一张详细的热图来说明这些免疫细胞的浸润水平,以比较 RA 数据集中的 RA 组和对照组(图 7D)。
PPI 网络和预测 mRNA-miRNA、mRNA-TF、mRNA-药物网络和蛋白质结构域的网络

使用 STRING 数据库检查了 14 个关键基因的 PPI。获得 13 个关键基因(不包括基因 INPP5K)的 PPI 相互作用网络,最小置信度参数(所需的相互作用分数)设置为 0.150,表明所需的最低相互作用分数为 0.150(图 8A)。此外,我们还利用了 GeneMANIA 网站(图 8B) 预测并构建与这 13 个关键基因相关的功能相似基因的相互作用网络。这使我们能够检查它们的物理相互作用关系、共表达、预测、共定位、通路连接和其他相关因素信息。之后,使用 ENCORI 数据库分析 mRNA-miRNA 数据并预测 miRNAs 与重要基因的相互作用。使用 ChIPBase3.0 数据库分析 mRNA-TF 数据,并鉴定与关键基因相互作用的 TFs。Cytoscape 软件用于可视化 mRNA-miRNA 相互作用网络(图 9A)和 mRNA-TF 相互作用网络(图 9B)。详细描述了 mRNA 和 miRNA 之间的相互作用以及特定的 mRNA-TF 相互作用。使用 DGidb 数据库中的 mRNA 药物信息预测药物与重要基因相互作用,使用 Cytoscape 软件可视化了 mRNA-药物相互作用网络(图 9C)。该网络包含 8 个 mRNA (SLC25A4、 GATA2、 PC、 SCO2、 SLC16A7、 FLI1、 NDUFB3 和 PIGA)和 16 种药物。使用来自 ENCORI 数据库的 mRNA-RBP 数据预测与关键基因相互作用的 RBP。使用 Cytoscape 软件可视化 mRNA-RBP 相互作用网络,并绘制在图 9D.相互作用网络由 10 个 mRNA (FLI1、GATA2、KCNN4、NDUFB3、NDUFS3、PC、PIGA、SLC16A7、TCIRG1 和 TSFM)和 21 个 RBP 组成。


