大数跨境

子宫内膜异位症又出新诊断模型啦!

子宫内膜异位症又出新诊断模型啦! 中科生信
2024-02-27
3
导读:子宫内膜异位症又出新诊断模型啦!
今天小编和大家分析一篇2024年1月发表在《Front Mol Biosci》(IF:4.1)期刊上的文章《Construction and evaluation of endometriosis diagnostic prediction model and immune infiltration based on efferocytosis-related genes》。本研究采用生物信息学工具,鉴定了子宫内膜异位症(Endometriosis, EM)中与胞葬作用相关基因(efferocytosis-related genes, EFRGs),并构建了ERGs的蛋白质-蛋白质相互作用(protein-protein interaction, PPI)和转录因子(transcription factor, TF)调控网络;应用机器学习技术来鉴定诊断生物标志物,并构建诊断模型。采用CIBERSORT算法和单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)探索免疫细胞浸润,并利用比较毒理基因组学数据库(Comparative Toxicogenomics Database, CTD)鉴定了EM的潜在治疗药物。最后,采用免疫组化(immunohistochemistry, IHC)和逆转录定量聚合酶链反应(reverse transcription quantitative polymerase chain reaction, RT-qPCR)对EM临床样本中生物标志物的表达水平进行定量分析。本研究为后续EM领域的机理研究和临床应用提供了有价值的见解。该思路同样适用于其它非肿瘤分析,有相关需求的老师欢迎联系我们。

背景:

EM是一种难以治疗和预防的长期炎症性疾病。现有研究表明免疫浸润在 EM进展中的重要性。胞葬作用具有重要的免疫调节功能。然而,关于EFRGs在EM中的鉴定和临床意义的研究很少。

方法:
1,通过GeneCards 数据库和KEGG数据库选择EFRGs;
2,通过R包limma鉴定EM与对照样本之间的差异表达基因(differentially expressed genes, DEGs);
3,通过R包VennDiagram将多个基因集交叉;
4,通过STRING数据库构建PPI网络;
5,通过ChEA3数据库预测TF与基因的调控关系;
6,通过Logistic回归模型、LASSO和SVM筛选诊断生物标志物;
7,通过R包rms构建列线图;
8,通过CIBERSORT算法计算免疫细胞的浸润比例;
9,通过Wilcoxon分析组间样本的免疫细胞差异;
10,通过R包Seurat分析单细胞数据;
11,通过GSVA软件包进行单基因的基因集富集分析;
12,通过CTD预测EM治疗的潜在药物;
研究结果:
(一)EM中EFRDEG(differentially expressed efferocytosis-related genes)的鉴定

本研究的分析过程如图所示(Fig 1)。将三个数据集进行合并,去批次效应,PCA结果在图2(Fig 2)中显示,其中A、B和C代表不同的批次效应,表明校正后大量去除了批次效应。观察到 EM患者和对照组的样本之间存在明显区别(Fig 2C),表明表达矩阵适合后续分析。从GeneCards数据库中获取141个EFRGs,从KEGG数据库中检索了150个EFRGs。在去除重复后,总共获得193个EFRG基因。DEG的聚类热图揭示了EM与对照样本之间的561个DEGs。将EFRGs与DEGs取交集,得到13个EFRDEG(Fig 3A、Fig 3B、Fig 3C)。使用 circus v.0.69 显示这些EFRDEG的染色体区域(Fig 3D)。

(二)EFRDEGS的PPI和TF网络建设

通过PPI网络仔细检查这些已识别的EFRDEG之间的相互作用,该网络包括13个节点和47条边(Fig 4A)。根据程度>5进行选择具有高度连接的蛋白质(PECAM1、C3、C1QA、GAS6、C1QB、CLU、PROS1、ARG2、CD14和FGL2),这可能是影响EM的关键因素。在TF-mRNA调控网络中,发现了16个TF,黄色和蓝色圆圈代表EFRDEG,红色圆圈代表上游转录因子(Fig 4B)。


(三)基于机器学习的诊断生物标志物选择

为了进一步了解13个EFRDEG在EM诊断和预测中的作用,旨在从13个EFRDEG中鉴定hub基因,以构建诊断预测模型。最初,对13个EFRDEG进行了单变量分析,并绘制13个ERDEG的ROC曲线(Fig 5A),以AUC>0.8为临界值,筛选了8个基因(CLU、C3、FGL2、PROS1、GAS6、C1QA、ARG2和PECAM1)进行进一步分析。其中,CLU(AUC=0.959%,95%CI:0.913-1.000)的AUC值最高。箱盒图显示8个基因的表达具有显著差异性(Fig 5B)。

随后,采用LASSO回归分析和SVM分类来进一步细化和识别诊断标记。Lasso回归的结果显示,六个基因(ARG2、GAS6、C3、PROS1、CLU和FGL2)具有理想拟合,当λ=0.037时,其系数不为0(Fig 6A)。SVM分类算法识别出七个基因(ARG2、GAS6、C3、PROS1、CLU、FGL2和PECAM1)具有显著的分类效果(Fig 6B)。LASSO回归分析和SVM分类的交叉结果表明,ARG2、GAS6、C3、PROS1、CLU和FGL2是诊断EM的潜在标志物。最终,对6个基因进行多变量逐步logistic回归分析,筛选出3个基因(C3、GAS6和ARG2),C3的p值小于0.05(Table 3)。

(四)诊断预测模型的建立与评价

使用训练队列,基于C3、GAS6和ARG2基因构建了用于EM诊断的列线图模型(Fig 7A)。列线图中的每个预测因子都对应一个特定的分数,“总分”是上述预测因子的分数的累积总和,我们可以根据“总分”来预测患EM的风险。通过三次交叉验证确定的DCA曲线(Fig 7B)显示,模型曲线均高于高风险阈值曲线,列线图的有效区间为4.35%-94.31%,这表明我们的列线图模型具有较高的准确性,可以作为临床决策的基础。在1000次采样后,训练和验证队列中的校准曲线(Fig 7C)接近参考线,p值为0.1014,这表明组合模型的过拟合被最小化,实际EM集群风险与预测风险之间的差异非常小。列线图模型的AUC为0.970(95%置信区间:0.898–1.000),证明了列线图诊断模型的高度可行性。ROC曲线描绘了三基因预测模型的能力,GSE37837数据集中的AUC值为0.627(95%CI:0.437-0.816),GSE6374数据集中的AUC值为0.635(95%CI:0.449–0.821)(Fig 7D)。这些结果表明了我们的诊断模型在区分EM和正常个体方面的有效性。



(五)免疫浸润分析结果

在这项研究中,CIBERSORT算法用于估计26个在位和26个异位子宫内膜样本中22个免疫细胞的比例(Fig 8A)。在位和异位子宫内膜样本中的免疫细胞浸润的差异显示(Fig 8B)。与在位子宫内膜相比,异位子宫内膜M2巨噬细胞(p<0.001)、浆细胞(p<001)、CD4记忆性T细胞(p>0.01)和树突状细胞(DC,p<0.05)的比例显著增加。相反,T卵泡辅助细胞(Tfh,p<0.001)、活化的自然杀伤细胞(NK)(p<0.001),静息的NK细胞(p<0.05)和活化的树突状细胞(DC)(p<0.05)的比例显著降低。各种类型的免疫细胞之间的关系被展示(Fig 8C)。接下来,进一步分析了诊断生物标志物与免疫细胞浸润水平之间的相关性。结果显示,hub基因与一个或多个细胞在免疫浸润中的功能相关(Fig 8D),这表明诊断生物标志物可能对免疫微环境产生重大影响。其中,C3和Tfh细胞之间存在极显著的负相关,而ARG2与NK细胞表现出显著的正相关(Fig 8E、Fig 8F)。

(六)子宫内膜异位症免疫浸润的单细胞RNA测序分析

为了更深入地了解不同免疫细胞群体中诊断生物标志物表达水平的变化,选择在GSE213216队列中进行单细胞分析。通过UMAP将细胞分为15个细胞亚群(Fig 9A)。鉴定了八种免疫细胞亚群:巨噬细胞、单核细胞、内皮细胞、成纤维细胞、CD8 T细胞、CD8-Tex、幼稚B细胞和静息记忆CD4 T细胞(Fig 9B)。这8个细胞亚群的相对免疫丰度如圆形图所示(Fig 9C),其中成纤维细胞最丰富,其次是单核细胞。然后,分析了8个细胞亚群的诊断生物标志物的表达(Fig 9D-9F)。在巨噬细胞和成纤维细胞亚群中,C3和GAS6具有较高的表达水平,ARG2表达的分布尚不清楚。气泡图可以反映hub基因在亚群中的平均表达水平和细胞比例,C3在CD8-Tex细胞中表现出最高的表达水平,而GAS6在巨噬细胞中表现出最大的平均表达水平。

(七)诊断生物标志物的功能富集分析和潜在药物靶向

然后,对逻辑双向消除回归中p值<0.05的基因进行了GSEA分析,以了解其潜在的生物学作用。C3的GSEA的气泡图显示(Fig 10A),表现出高表达的基因在同种异体移植物排斥反应、通过NFkB的TNFA信号传导和KRAS信号传导上行途径中富集,相反,表达降低的基因在与E2F靶点、G2M检查点和MYC靶点V1相关的途径中显著富集。使用R包GSVA的单个样本中途径富集的程度显示(Fig 10B),在C3组的高水平表达中,P53通路、细胞凋亡和通过NFkB通路的TNFA信号传导显著富集。随后,下载了人类KEGGpathway数据,根据KEGG类别,使用R包clusterProfiler和enrichplot对C3单基因富集分析的结果进行聚类,以找到相关途径的共性,并计算每个聚类的平均值和标准差,P值<0.05具有统计学意义。集群内的中心途径是Th1和Th2细胞分化、TNF信号传导以及病毒蛋白与细胞因子和细胞因子受体的相互作用(Fig 10C)。此外,通过CTD评估了治疗EM的潜在治疗药物。结果显示,筛选出7种药物,即布洛芬、达那唑、吲哚美辛、米非司酮、孕酮、白藜芦醇和罗非昔布,其中6种药物靶向C3,3种药物靶向GAS6,2种药物靶指向ARG2。据推测,它们可以逆转或诱导hub基因的表达,从而影响EM的状态(Fig 10D)。

(八)RT-qPCR和免疫组化分析

对10对匹配的在位和异位子宫内膜组织样本进行qRT-PCR和IHC,以验证三种诊断生物标志物的表达水平。使用抗C3、抗GAS6和抗ARG2的EM组织的IHC染色显示,与在位子宫内膜相比,异位子宫内膜中C3和GAS6的表达较高,ARG2的表达较低,差异具有统计学意义(Fig 11A)。同时,qRT-PCR结果显示,与在位子宫内膜相比,异位子宫内膜中C3和GAS6的表达更高,ARG2的表达更低,差异具有统计学意义(Fig 11B)。


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.4k
粉丝0
内容580