大数跨境

解码肠道“基因密码”:生物信息学+机器学习揪出IBD诊断核心基因

解码肠道“基因密码”:生物信息学+机器学习揪出IBD诊断核心基因 中科生信
2025-10-15
2
导读:解码肠道“基因密码”:生物信息学+机器学习揪出IBD诊断核心基因

反复腹痛、便血、肠道溃疡……炎症性肠病(Inflammatory bowel disease, IBD)作为全球高发的慢性消化道疾病,正困扰着超600万患者。更棘手的是,传统诊断依赖内镜和病理活检,不仅患者体验差,还常因症状隐匿导致诊断延迟。目前,一篇在Journal of Translational Medicine上发表的研究Identification of key genes as diagnostic biomarkers for IBD using bioinformatics and machine learning,为IBD诊断带来突破性进展。

Highlights

lIRF1GBP5PARP9诊断效能优异,联合模型诊断效果更佳,可作IBD潜在生物标志物。

lM1巨噬细胞浸润增加且与IRF1GBP5PARP9正相关,浆细胞等浸润减少且呈负相关。

lIRF1IBD风险有因果关联,且预测了多种潜在治疗药物。

文章亮点

该研究创新整合多维度技术,构建完整研究框架:先通过多类分析缩小基因范围,结合PPI网络与大量机器学习模型筛选出可靠核心基因;再经多队列验证证实其诊断效能,还揭示核心基因与免疫细胞的调控关系;更首次从遗传层面证实IRF1IBD风险的因果关联,预测的药物也为后续研究奠基,为IBD精准诊疗开辟新方向

背景介绍

炎症性肠病的发病机制涉及复杂的分子机制,实现临床缓解仍具有挑战性。本研究旨在确定IBD潜在生物标志物,分析其与免疫细胞浸润的相关性,并确定与IBD有因果关系的基因。

主要研究结果

(一)1816个与IBD相关的差异基因

IBD组和对照组之间共鉴定出1816DEGs,其log2FC > 0.585FDR < 0.05(图1)。

1. 通过DEG分析,从n = 155133IBD22例非IBD对照)的训练队列中识别IBD

WGCNA确定了与IBD密切相关的DEGs关键模块

通过如图2所示,MElightyellowMEblackMEgrey60IBD显著正相关(R > 0.5p < 0.05)。此外,不同模块之间的基因重要性分布GS也有明显差异(p < 0.05)。随后,进行了模块内分析,发现在MElightyellow中,模块成员(MM)与基因重要性(GS)之间存在明显的正相关(R = 0.7p < 0.05)(图2)。最后,将MElightyellow模块中的基因(n = 1094)作为IBD相关基因进行进一步分析。

2显示IBD的差异分析和WGCNA结果。

关键模块之间的大量重叠表明,与IBD相关的生物功能和通路之间存在密切关系

比较WGCNADEG显著阳性基因模块,得出这些已识别模块之间的交叉点。共有77个基因同时出现在WGCNAMElightyellow模块和DEG模块中(图3A)。随后,对这些交叉基因进行了GOKEGG富集分析。GO富集分析表明,77个基因与生物膜高度相关,如质膜外侧、溶酶体膜、溶菌真空膜和真空膜(图3B)。KEGG富集分析发现,77个基因主要与甲型流感和Epstein-Barr病毒感染有关。此外,类点头受体信号通路和趋化因子信号通路被确定为与这些基因相关的主要分子通路(图3C)。

3WGCNADEG显著阳性基因模块中的重叠基因。

基于PPI网络分析和机器学习的整合与筛选,获得了6IBD特征基因

利用cytoHubba中的Degree算法,生成了基因显性PPIs的交互式网络,并确定了15个最重要的关键基因。基于机器学习整合15个基因的表达谱,筛选出IBD的关键基因(图4A)。本研究共构建了113个预测分类模型,并利用交叉验证框架将其应用于训练和测试数据集。在训练组和测试组中,RF + NaiveBayes的集成算法取得了最高的平均AUC分数,为0.855,因此被认定为最有效的分类模型(图4B因此,RF + NaiveBayes算法得到了一组6个特征基因分别是STAT1PARP9IRF1GBP5OAS2TRIM22

4. PPI网络中的前15个关键基因通过10倍交叉验证评估的113种机器学习算法组合

IRF1GBP5PARP9是诊断IBD的生物标记物

为了评估六个特征基因的诊断能力,对训练队列和测试队列进行了ROC曲线分析。结果显示,在训练队列中,IRF1GBP5PARP9AUC值均大于0.95(图5A),表明它们在区分IBD和对照方面具有较高的灵敏度和特异性。因此,IRF1GBP5PARP9被认为是IBD核心基因,可以作为潜在的诊断生物标志物。此外,基于这三个核心基因的组合构建了一个模型,在训练队列(AUC = 0.994)和测试队列(AUC = 0.8430.728)中的诊断性能都有显著提高。对IRF1GBP5PARP9的诊断准确性、相关性和表达模式的评估是在三个不同的数据集上进行的(GSE179285GSE47908作为测试集,GSE36807作为外部验证集)(表1)。尽管这些数据集的样本来源不尽相同,但这些基因强大的诊断能力和增高的表达水平再次得到了证实,尤其是IRF1(所有AUC均大于0.75)。在外部验证队列中观察到,IBD的三个核心基因出现了明显的上调模式(p < 0.001)(图5B)。

5. ROC曲线和特征基因的表达水平

1训练集、测试集和外部验证集中六个特征基因的AUC

CIITASTAT3RELASTAT2是以特征基因IRF1STAT1为目标的转录因子

基于TRRUST v2数据库,我们获得6个靶向特征基因的TFsSTAT2CREBBPCIITASTAT3TP53RELA)(表2)。在训练和测试中,共有4TFsCIITASTAT3RELASTAT2)在IBD中增加,被认为是IBD进展中的关键TFs。上述TFs都与IRF1STAT1有关。图6A进一步说明了IBD2个特征基因和4个关键TFs的相关模式,其中STAT2IRF1STAT1显著相关。涉及IRF1STAT1相关TF的调控网络见图6B。前三个富集功能是细胞对干扰素的反应、对干扰素的反应和对I型干扰素的反应。

表2特征基因的TF

6. TF与特征基因相关途径之间的相互作用

M1巨噬细胞细胞浸润的增加和浆细胞浸润的减少与中心基因高度相关

IBD培训和验证中,M1巨噬细胞的浸润明显增加,并与核心基因呈正相关。此外,在IBD培训队列中,浆细胞、CD8 T细胞和活化的自然杀伤细胞的浸润显著下降,并与中心基因呈负相关。此外,在IBD验证队列中,M2巨噬细胞、浆细胞和静止肥大细胞的浸润明显下调,且与核心基因呈负相关,这表明M1巨噬细胞和浆细胞在受核心基因调控的免疫相关通路中起着关键作用(图7)。

7IBD相关的免疫特征以及与核心基因相关的免疫浸润细胞

IBD患者体内的IRF1升高具有很高的诊断价值,并与IBD风险存在正向因果关系

为了研究与遗传变异相关的潜在基因生物标志物,我们基于eQTL数据和大规模GWAS数据(Finngen数据库)进行了SMR分析,然后进行了HEIDI分析。经过Bonferroni校正和共定位分析,发现133个基因与IBD风险相关(图8A)。其中,IRF1也是IBD的核心基因。最终发现,IRF1IBD风险呈正相关(P < 0.05)(图8B,表3)。因此,IRF1越高,患IBD的风险就越高。

8基于eQTL数据和大规模GWAS数据(Finngen数据库)的SMR分析

3. IRF1SMR分析

研究小结

研究发现了几个与IBD相关的潜在基因,包括IRF1GBP5PARP9。基于eQTL数据的SMR分析表明,IRF1IBD风险显著相关。有必要开展更多的功能研究,以明确其中的机制,这将有助于推进针对IBD的分子疗法和免疫疗法。


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读989
粉丝0
内容580