方向介绍
炎症性肠病(IBD)作为一种慢性肠道炎症性疾病,其发病机制复杂,临床缓解难度大,且病因相关基因尚未被完全阐明,这为有效治疗带来了挑战。通过整合生物信息学、机器学习和孟德尔随机化等多维度方法,对IBD相关基因进行了系统研究。研究从GEO数据库获取RNA-seq数据集,经差异表达基因分析、蛋白质-蛋白质相互作用网络分析、机器学习筛选等步骤,识别出IRF1、GBP5和PARP9这3个与IBD发病相关的关键基因,并发现它们与免疫细胞浸润存在关联。此外,基于eQTL数据的SMR分析显示IRF1与IBD风险显著相关,有望成为IBD的诊断生物标志物和治疗靶点。该研究为理解IBD的发病机制提供了新视角,也为IBD的诊断和治疗研究奠定了重要基础。
Highlights
- 整合多组学分析方法,从GEO数据库的RNA-seq数据中识别出1816个IBD相关差异表达基因,并通过WGCNA筛选出与IBD显著相关的关键模块。
- 经PPI网络分析和机器学习筛选,确定IRF1、GBP5、PARP9为IBD的特征基因,其在训练和验证队列中均表现出高诊断价值(AUC>0.7)。
- 免疫浸润分析显示,M1巨噬细胞浸润增加且与上述关键基因呈正相关,血浆细胞等浸润减少且呈负相关,揭示了免疫细胞与基因的关联模式。
- SMR分析结合eQTL和GWAS数据,证实IRF1与IBD风险存在显著因果关联,为IBD的诊断生物标志物和治疗靶点研究提供了重要依据。
背景介绍
IBD是一种以肠道慢性炎症反复发作为特征的疾病,可导致肠道溃疡、管腔狭窄甚至穿孔等严重并发症,对消化系统造成实质性损害,还可能引发全身性炎症,影响患者整体健康和生活质量。其发病机制复杂,涉及遗传、免疫等多种因素,尽管遗传易感性被认为是重要诱因,但目前IBD的致病基因尚未被完全明确,这给开发有效的治疗方法带来了挑战。
近年来,高通量测序技术在全基因组关联研究(GWAS)中被用于识别IBD的易感区域,但由于疾病机制的复杂性,这些风险位点难以有效转化为临床治疗手段。同时,表达数量性状位点(eQTL)分析和孟德尔随机化等方法的发展,为整合多维度数据、探究基因与疾病的因果关系提供了可能。鉴于此,本研究通过整合生物信息学、机器学习和孟德尔随机化等方法,对IBD相关基因进行系统分析,旨在识别潜在的诊断生物标志物,探究其与免疫细胞浸润的关联及与IBD的因果关系,为理解IBD发病机制和开发治疗策略提供依据。
主要研究结果
该流程图展示了研究的整体分析框架,从GEO数据库获取发现队列、测试队列、验证队列数据以及eQTL和GWAS数据,通过富集分析、差异表达基因(DEGs)分析、加权基因共表达网络分析(WGCNA)得到重叠基因,再经蛋白质-蛋白质相互作用(PPI)分析、孟德尔随机化(SMR)分析和贝叶斯共定位分析,结合机器学习模型筛选出核心基因,最后分析其与免疫浸润、转录因子的关系,以确定潜在的治疗靶点。
呈现了从包含133名IBD患者和22名非IBD对照的训练队列中识别出的IBD相关差异表达基因(DEGs)结果。火山图(A)显示了基因的表达差异情况,其中显著上调和下调的基因被分别标记;聚类热图(B)则直观展示了IBD组和对照组中这些DEGs的表达模式差异,共筛选出1816个符合条件。
展示了基于DEGs的WGCNA结果。表明MElightyellow、MEblack和MEgrey60模块与IBD呈显著正相关,其中MElightyellow模块的模块成员(MM)与基因显著性(GS)相关性最高,最终该模块的1094个基因被作为IBD相关基因进一步分析。
呈现了WGCNA和DEGs显著正相关基因模块的重叠情况及功能富集分析结果。韦恩图显示WGCNA的MElightyellow模块与DEGs有77个重叠基因;GO富集分析表明这些基因与质膜外侧、溶酶体膜等生物膜结构相关;KEGG富集分析显示它们主要参与甲型流感、Epstein-Barr病毒感染以及NOD样受体信号通路、趋化因子信号通路等。
展示了关键基因的筛选过程。为PPI网络中排名前15的关键基因;评估了113种机器学习算法组合在训练和测试数据集上的表现,其中随机森林(RF)+朴素贝叶斯(NaiveBayes)算法组合的平均AUC值最高(0.855),最终从中筛选出STAT1、PARP9、IRF1、GBP5、OAS2、TRIM22这6个IBD特征基因。
呈现了特征基因的诊断价值和表达水平。ROC曲线显示在训练集、测试集和外部验证集中,IRF1、GBP5、PARP9的AUC值均较高,表明其具有良好的诊断能力;表达水平图显示在外部验证队列中,这三个核心基因在IBD患者中均显著上调。
该图展示了转录因子(TFs)与特征基因的相互作用。热图显示了4个关键TFs(CIITA、STAT3、RELA、STAT2)与特征基因表达的相关性,其中STAT2与IRF1、STAT1相关性显著;调控网络展示了这些TFs与特征基因相关的通路,主要富集于对干扰素-γ的细胞应答等功能。
此图探究了与IBD相关的免疫特征及核心基因相关的免疫浸润细胞。训练队列中关键免疫细胞的相关性分析、免疫细胞热图、22种重要免疫浸润细胞分析以及核心基因与免疫浸润细胞的相关性棒棒糖图,结合验证队列的相应分析,显示M1巨噬细胞浸润增加且与核心基因正相关,浆细胞等浸润减少且呈负相关。
该图展示了基于eQTL数据和大规模GWAS数据的SMR分析结果。曼哈顿图显示了与IBD相关的基因;散点图表明IRF1与IBD风险呈显著正相关,证实了IRF1与IBD风险的因果关联。
研究小结
该研究整合生物信息学、机器学习和孟德尔随机化等多维度方法,对炎症性肠病相关基因展开系统研究。从GEO数据库获取RNA-seq数据集,经分析筛选出1816 个IBD相关差异表达基因,结合WGCNA确定与IBD显著相关的关键模块,得到77个重叠基因;通过PPI网络分析和机器学习进一步筛选出6个特征基因,其中IRF1、GBP5、PARP9表现出高诊断价值。免疫浸润分析发现M1巨噬细胞浸润增加且与核心基因正相关,血浆细胞等浸润减少且呈负相关。SMR分析结合eQTL和GWAS数据,证实IRF1与IBD风险存在显著因果关联。尽管存在样本量有限、研究人群单一等局限,但该研究识别出的关键基因为IBD的诊断生物标志物和治疗靶点研究提供了重要依据,也为理解IBD发病机制提供了新视角。

