反复腹痛、便血、肠道溃疡……炎症性肠病(Inflammatory bowel disease, IBD)作为全球高发的慢性消化道疾病,正困扰着超600万患者。更棘手的是,传统诊断依赖内镜和病理活检,不仅患者体验差,还常因症状隐匿导致诊断延迟。目前,一篇在Journal of Translational Medicine上发表的研究《Identification of key genes as diagnostic biomarkers for IBD using bioinformatics and machine learning》,为IBD诊断带来突破性进展。
Highlights
lIRF1、GBP5、PARP9诊断效能优异,联合模型诊断效果更佳,可作为IBD的潜在生物标志物。
lM1巨噬细胞浸润增加且与IRF1、GBP5、PARP9正相关,浆细胞等浸润减少且呈负相关。
lIRF1与IBD风险有因果关联,且预测了多种潜在治疗药物。
文章亮点
该研究创新整合多维度技术,构建完整研究框架:先通过多类分析缩小基因范围,结合PPI网络与大量机器学习模型筛选出可靠核心基因;再经多队列验证证实其诊断效能,还揭示核心基因与免疫细胞的调控关系;更首次从遗传层面证实IRF1与IBD风险的因果关联,预测的药物也为后续研究奠基,为IBD精准诊疗开辟新方向。
背景介绍
炎症性肠病的发病机制涉及复杂的分子机制,实现临床缓解仍具有挑战性。本研究旨在确定IBD潜在生物标志物,分析其与免疫细胞浸润的相关性,并确定与IBD有因果关系的基因。
主要研究结果
(一)1816个与IBD相关的差异基因
在IBD组和对照组之间共鉴定出1816个DEGs,其log2FC > 0.585且FDR < 0.05(图1)。
图1. 通过DEG分析,从n = 155(133例IBD和22例非IBD对照)的训练队列中识别IBD
(二)WGCNA确定了与IBD密切相关的DEGs关键模块
通过如图2所示,MElightyellow、MEblack和MEgrey60与IBD显著正相关(R > 0.5,p < 0.05)。此外,不同模块之间的基因重要性分布(GS)也有明显差异(p < 0.05)。随后,进行了模块内分析,发现在MElightyellow中,模块成员(MM)与基因重要性(GS)之间存在明显的正相关(R = 0.7,p < 0.05)(图2)。最后,将MElightyellow模块中的基因(n = 1094)作为IBD相关基因进行进一步分析。
图2. 显示IBD的差异分析和WGCNA结果。
(三)关键模块之间的大量重叠表明,与IBD相关的生物功能和通路之间存在密切关系
比较WGCNA和DEG显著阳性基因模块,得出这些已识别模块之间的交叉点。共有77个基因同时出现在WGCNA的MElightyellow模块和DEG模块中(图3A)。随后,对这些交叉基因进行了GO和KEGG富集分析。GO富集分析表明,77个基因与生物膜高度相关,如质膜外侧、溶酶体膜、溶菌真空膜和真空膜(图3B)。KEGG富集分析发现,77个基因主要与甲型流感和Epstein-Barr病毒感染有关。此外,类点头受体信号通路和趋化因子信号通路被确定为与这些基因相关的主要分子通路(图3C)。
图3. WGCNA和DEG显著阳性基因模块中的重叠基因。
(四)基于PPI网络分析和机器学习的整合与筛选,获得了6个IBD特征基因
利用cytoHubba中的Degree算法,生成了基因显性PPIs的交互式网络,并确定了15个最重要的关键基因。基于机器学习整合15个基因的表达谱,筛选出IBD的关键基因(图4A)。本研究共构建了113个预测分类模型,并利用交叉验证框架将其应用于训练和测试数据集。在训练组和测试组中,RF + NaiveBayes的集成算法取得了最高的平均AUC分数,为0.855,因此被认定为最有效的分类模型(图4B)。因此,RF + NaiveBayes算法得到了一组6个特征基因,分别是STAT1、PARP9、IRF1、GBP5、OAS2和TRIM22。
图4. PPI网络中的前15个关键基因、通过10倍交叉验证评估的113种机器学习算法组合
(五)IRF1、GBP5和PARP9是诊断IBD的生物标记物
为了评估六个特征基因的诊断能力,对训练队列和测试队列进行了ROC曲线分析。结果显示,在训练队列中,IRF1、GBP5和PARP9的AUC值均大于0.95(图5A),表明它们在区分IBD和对照方面具有较高的灵敏度和特异性。因此,IRF1、GBP5和PARP9被认为是IBD的核心基因,可以作为潜在的诊断生物标志物。此外,基于这三个核心基因的组合构建了一个模型,在训练队列(AUC = 0.994)和测试队列(AUC = 0.843,0.728)中的诊断性能都有显著提高。对IRF1、GBP5和PARP9的诊断准确性、相关性和表达模式的评估是在三个不同的数据集上进行的(GSE179285和GSE47908作为测试集,GSE36807作为外部验证集)(表1)。尽管这些数据集的样本来源不尽相同,但这些基因强大的诊断能力和增高的表达水平再次得到了证实,尤其是IRF1(所有AUC均大于0.75)。在外部验证队列中观察到,IBD的三个核心基因出现了明显的上调模式(p < 0.001)(图5B)。
图5. ROC曲线和特征基因的表达水平
表1. 训练集、测试集和外部验证集中六个特征基因的AUC
(六)CIITA、STAT3、RELA、STAT2是以特征基因IRF1和STAT1为目标的转录因子
基于TRRUST v2数据库,我们获得了6个靶向特征基因的TFs(STAT2、CREBBP、CIITA、STAT3、TP53、RELA)(表2)。在训练集和测试集中,共有4个TFs(CIITA、STAT3、RELA、STAT2)在IBD中增加,被认为是IBD进展中的关键TFs。上述TFs都与IRF1和STAT1有关。图6A进一步说明了IBD中2个特征基因和4个关键TFs的相关模式,其中STAT2与IRF1和STAT1显著相关。涉及IRF1和STAT1相关TF的调控网络见图6B。前三个富集功能是细胞对干扰素-γ的反应、对干扰素-γ的反应和对I型干扰素的反应。
表2. 特征基因的TF
图6. TF与特征基因相关途径之间的相互作用
(七)M1巨噬细胞细胞浸润的增加和浆细胞浸润的减少与中心基因高度相关
在IBD培训集和验证集中,M1巨噬细胞的浸润明显增加,并与核心基因呈正相关。此外,在IBD培训队列中,浆细胞、CD8 T细胞和活化的自然杀伤细胞的浸润显著下降,并与中心基因呈负相关。此外,在IBD验证队列中,M2巨噬细胞、浆细胞和静止肥大细胞的浸润明显下调,且与核心基因呈负相关,这表明M1巨噬细胞和浆细胞在受核心基因调控的免疫相关通路中起着关键作用(图7)。
图7. 与IBD相关的免疫特征以及与核心基因相关的免疫浸润细胞
(八)IBD患者体内的IRF1升高具有很高的诊断价值,并与IBD风险存在正向因果关系
为了研究与遗传变异相关的潜在基因生物标志物,我们基于eQTL数据和大规模GWAS数据(Finngen数据库)进行了SMR分析,然后进行了HEIDI分析。经过Bonferroni校正和共定位分析,发现133个基因与IBD风险相关(图8A)。其中,IRF1也是IBD的核心基因。最终发现,IRF1与IBD风险呈正相关(P < 0.05)(图8B,表3)。因此,IRF1越高,患IBD的风险就越高。
图8. 基于eQTL数据和大规模GWAS数据(Finngen数据库)的SMR分析
表3. IRF1的SMR分析
研究小结
研究发现了几个与IBD相关的潜在基因,包括IRF1、GBP5和PARP9。基于eQTL数据的SMR分析表明,IRF1与IBD风险显著相关。有必要开展更多的功能研究,以明确其中的机制,这将有助于推进针对IBD的分子疗法和免疫疗法。

