大数跨境
0
0

一文读懂通路富集分析

一文读懂通路富集分析 奥智生物
2025-12-15
0
导读:通路富集是怎么做的?看完这篇就明白了
line-height: 1.75;visibility: visible;" data-pm-slice="0 0 []" mpa-from-tpl="t">

Omicsmaster

点击蓝字 关注我们









url(from=appmsg");background-size: 100% 100% !important;background-position: 50% 50% !important;">

深度定制 让研究突破预期


差异分析是转录组数据分析必不可少的一步。对于刚接触转录组分析的同学们来说可能会遇到过这样的困惑:我得到了几百个差异基因,这些基因共同参与了哪些生物学过程?又与哪些疾病或信号通路相关?仅仅看差异基因列表,就像看到一堆零件名称却不知道它们属于哪台机器——而通路富集分析,就是帮你把这些零件归类、组装,并告诉你它们共同运转的“机器”是什么。为了让大家更好地理解通路富集分析,我们今天从:是什么、为什么、怎么做的三段论结构来详细剖析通路富集分析。


WHAT

什么是通路富集分析

通路富集分析其实可以看作是一种“物以类聚”的分析方法。因为功能相近的基因在受到某种因素影响后的表达波动趋势也是类似的。通过差异分析得到一组目标基因集后,如果一个一个基因去查功能是不现实的。而通路富集分析帮你做的是:


1、基于已有知识库(比如GO、KEGG数据库),将基因按照功能或通路进行注释;

2、进行超几何检验,查看目标基因集里的基因在哪些功能/通路中富集,即比例是否显著高于随机情况;


最终通过富集分析的结果,我们就可以知道目标基因集可能影响哪些功能、参与哪些信号通路。其实关于富集分析,我们可以这样来理解:


富集分析的本质可以类比为一个抽球实验

  • 袋子:代表物种的整个基因组背景,共有N个球(基因)。
  • 白球:代表属于某个特定通路(如GO术语或KEGG通路)的基因,共M个。
  • 抽样:进行了一次转录组的组间差异分析,得到包含n个差异基因的目标基因集。
  • 中奖:在这n个差异基因中,有k个及以上恰好是白球(即属于该通路)。


图1:抽球实验


核心问题:随机从袋子里抽n个球,抽中k个及以上白球的概率有多大?如果这个概率极低,说明我们的“运气”好得不正常,也就意味着差异基因集很可能的确在该通路富集。


这个概率(p值)的计算公式基于超几何分布:



这个公式看起来复杂,但逻辑很直观:p值计算的是“恰好抽中k个、k+1个……直到min(n,M)个白球”的所有更极端情况的概率之和。p值越小(通常小于0.05),表明观察到的富集程度由随机因素导致的概率越小,结果越显著。得到p值后,为了避免假阳性,通常还需要进行 FDR)校正,以最终得到的q值<0.05作为判断一条通路显著富集的阈值。


WHY

为什么要做通路富集分析

通路富集分析的核心意义,在于实现从离散的分子信息到系统的功能与机制阐释的逻辑跨越。假设我们对肿瘤和对照组织的转录组数据进行差异基因分析,筛选出若干上调基因。对这些差异基因进行通路富集分析后,发现它们最显著富集的GO条目是“染色体分离”,KEGG通路是“细胞周期”和“p53信号通路”。那么这提示:肿瘤中上调的基因,可能通过影响细胞周期进程和p53相关调控,促进细胞异常增殖。那么之后就可针对这些通路中的关键基因(如CCNA2、CDK1等)设计实验验证。


通路富集分析在数据分析中起到承上启下的作用。向上,它承接并深化差异基因分析的结果,将离散的基因列表转化为具有生物学意义的通路与功能模块,向下,它也可以为后续研究提供分子机制假说与可验证的靶点。


图2:通路富集分析的应用情景


HOW

怎么做通路富集分析

如果我们需要在R语言中进行通路富集分析,那么就不得不提Y叔团队开发的R包:clusterprofiler[1]。这个包的使用也比较简单,主要流程为:


1、输入基因列表:首先需要准备一个基因名称的向量,通常是差异表达分析中筛选出的上调或下调基因。在clusterProfiler中,基因名称通常需要转换格式。比如我们有一个小鼠的差异基因向量DEG,里面的基因是标准的gene symbol,我们就可以用bitr函数,通过小鼠的基因名称注释包org.Mm.eg.db进行Entrez ID和ENSG号的转换,参考这行代码:
transID=bitr(DEG,fromType="SYMBOL",toType=c("ENSEMBL","ENTREZID"),OrgDb="org.Mm.eg.db")
2、进行通路富集:我们可以选择KEGG或者GO数据库的富集,不同数据库对应不同的函数,比如enrichKEGG和enrichGO,我们以GO富集为例,我们在第一步得到了transID,里面包含需要进行通路富集的基因Entrez ID。我们就可以用enrichGO函数开始分析,参考以下代码:
go_result<-enrichGO(gene=transID$ENTREZID,OrgDb=org.Mm.eg.db,ont="BP",pvalueCutoff=0.05)
3、查看富集分析的具体结果:第二步完成后我们在Rstudio右上角的工作环境中可以看到go_result这个enrichResult对象,我们可以用下面的代码调用结果:
Result<-go_result@result

这个代码可以把具体的每个条目富集情况提取出来。我们可以在Rstudio右上角直接点击Result来查看具体的富集情况。此时我们就可以通过鼠标点击各列进行数值大小排序,或者直接搜索对应条目,来找到需要展示的GO条目。


图3:富集情况明细


可视化结果:直接使用以下代码进行富集结果的可视化,默认都是以p_adj的大小进行排列展示:
barplot(go_result,showCategory=20) # 用条形图可视化
dotplot(go_result,showCategory=20) # 用点图可视化

如果我们需要单独挑选一些GO通路来展示,我们就可以先把一些GO条目名称提取成一个向量,然后通过向量筛选enrichResult对象,最后可视化这个筛选后的对象,参考下面的代码:

vka">
related<-c('GO:0046605','GO:0043113'# 假设要可视化这2个GO条目
go_result_subset = dplyr::filter(go_result, ID %in% related) # 调用dplyr的filter函数筛选
barplot(go_result_subset, showCategory=30, title="GO_BP"# 可视化并添加图片标题

图4:经典的GO富集条形图与点图


 小 结 

最后我们来简单总结通路富集分析的一些关键的要点:


1.本质是“功能归类+统计检验”——不是简单罗列基因功能,而是判断哪些功能在基因列表中“扎堆出现”。
2.输入必须规范——进行基因转换要匹配正确的物种数据库,否则结果无效。
3.核心步骤四步走:准备基因 → 执行富集 → 筛选结果 → 可视化。
4.结果要结合生物学——显著性高的通路不一定最重要,需结合研究背景判断需展示的条目。
5.不只是为了发图——更重要的是为后续机制研究提供方向和假设。


奥智生物最新转录组培训班来了!本期课程不仅包含必学的通路富集分析(理论+实操),还有实用的Deepkeck科研绘图与R语言入门课程!无论你是零基础还是想提升,这里都有你需要的实操干货,有需要的各位老师同学还请抓紧时间报名。

培训方式:腾讯会议 线上培训
培训费用:2000元/人
报名福利2人报名9折,3人及以上可享8折
报名截止时间:20251218

本期转录组学线上培训依然由我们经验丰富的讲师团设计课时安排,从转录组学概述、R语言入门、基础表达量分析绘图,进阶到多组学关联分析理论、关联分析绘图实操、测序数据上传GSA等丰富的课程内容,并创新性加入deepseek辅助图形绘制的课程,保证了新手小白也能系统学习转录组学知识。

具体课表安排如下:

除了实时线上跟学,我们也提供录播回放,让偶有时间冲突的同学也能在空时跟上录播学习;此外我们还提供:

































● 培训答疑群,遇到问题随时问及时答;

● 课前发放软件安装包、课件脚本等资料,并由讲师指导软件安装;
● 所有课程提供录播回放,一年内无限次免费观看;
● 课后针对性测验题,巩固当天所学;
● 完成测验题还可获得结业证书。

































部分课件内容:


心动就赶紧戳下方报名方式行动吧,如需开具发票、提供报销材料,也可以咨询客服小智哦。
报名方式:

方式一

识别下方二维码填写信息报名:

方式二

发送姓名、单位、电话到邮箱contact@omicsmaster.com,主题注明“转录培训班

方式三

识别下方二维码添加客服报名:


参考文献

[1] Wu T., Hu E., Xu S., et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data [J]. Innovation (Camb), 2021, 2(3): 100141.


*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


Omicsmaster



让每一分科研投入

都物超所值


#富集分析#转录组#生信分析#通路富集分析#差异分析

【声明】内容源于网络
0
0
奥智生物
广州奥智生物科技有限公司官方账号,旨在分享前沿组学技术、实用生信技巧、数据挖掘思路,一起在科研路上打怪升级啊!
内容 68
粉丝 0
奥智生物 广州奥智生物科技有限公司官方账号,旨在分享前沿组学技术、实用生信技巧、数据挖掘思路,一起在科研路上打怪升级啊!
总阅读18
粉丝0
内容68