Omicsmaster
点击蓝字 关注我们
深度定制 让研究突破预期
差异分析是转录组数据分析必不可少的一步。对于刚接触转录组分析的同学们来说可能会遇到过这样的困惑:我得到了几百个差异基因,这些基因共同参与了哪些生物学过程?又与哪些疾病或信号通路相关?仅仅看差异基因列表,就像看到一堆零件名称却不知道它们属于哪台机器——而通路富集分析,就是帮你把这些零件归类、组装,并告诉你它们共同运转的“机器”是什么。为了让大家更好地理解通路富集分析,我们今天从:是什么、为什么、怎么做的三段论结构来详细剖析通路富集分析。
WHAT
什么是通路富集分析
通路富集分析其实可以看作是一种“物以类聚”的分析方法。因为功能相近的基因在受到某种因素影响后的表达波动趋势也是类似的。通过差异分析得到一组目标基因集后,如果一个一个基因去查功能是不现实的。而通路富集分析帮你做的是:
1、基于已有知识库(比如GO、KEGG数据库),将基因按照功能或通路进行注释;
2、进行超几何检验,查看目标基因集里的基因在哪些功能/通路中富集,即比例是否显著高于随机情况;
最终通过富集分析的结果,我们就可以知道目标基因集可能影响哪些功能、参与哪些信号通路。其实关于富集分析,我们可以这样来理解:
富集分析的本质可以类比为一个抽球实验:
-
袋子:代表物种的整个基因组背景,共有N个球(基因)。 -
白球:代表属于某个特定通路(如GO术语或KEGG通路)的基因,共M个。 -
抽样:进行了一次转录组的组间差异分析,得到包含n个差异基因的目标基因集。 -
中奖:在这n个差异基因中,有k个及以上恰好是白球(即属于该通路)。
图1:抽球实验
核心问题:随机从袋子里抽n个球,抽中k个及以上白球的概率有多大?如果这个概率极低,说明我们的“运气”好得不正常,也就意味着差异基因集很可能的确在该通路富集。
这个概率(p值)的计算公式基于超几何分布:
这个公式看起来复杂,但逻辑很直观:p值计算的是“恰好抽中k个、k+1个……直到min(n,M)个白球”的所有更极端情况的概率之和。p值越小(通常小于0.05),表明观察到的富集程度由随机因素导致的概率越小,结果越显著。得到p值后,为了避免假阳性,通常还需要进行 FDR)校正,以最终得到的q值<0.05作为判断一条通路显著富集的阈值。
WHY
为什么要做通路富集分析
通路富集分析的核心意义,在于实现从离散的分子信息到系统的功能与机制阐释的逻辑跨越。假设我们对肿瘤和对照组织的转录组数据进行差异基因分析,筛选出若干上调基因。对这些差异基因进行通路富集分析后,发现它们最显著富集的GO条目是“染色体分离”,KEGG通路是“细胞周期”和“p53信号通路”。那么这提示:肿瘤中上调的基因,可能通过影响细胞周期进程和p53相关调控,促进细胞异常增殖。那么之后就可针对这些通路中的关键基因(如CCNA2、CDK1等)设计实验验证。
通路富集分析在数据分析中起到承上启下的作用。向上,它承接并深化差异基因分析的结果,将离散的基因列表转化为具有生物学意义的通路与功能模块,向下,它也可以为后续研究提供分子机制假说与可验证的靶点。
图2:通路富集分析的应用情景
HOW
怎么做通路富集分析
如果我们需要在R语言中进行通路富集分析,那么就不得不提Y叔团队开发的R包:clusterprofiler[1]。这个包的使用也比较简单,主要流程为:
transID=bitr(DEG,fromType="SYMBOL",toType=c("ENSEMBL","ENTREZID"),OrgDb="org.Mm.eg.db")
go_result<-enrichGO(gene=transID$ENTREZID,OrgDb=org.Mm.eg.db,ont="BP",pvalueCutoff=0.05)
Result<-go_result@result
这个代码可以把具体的每个条目富集情况提取出来。我们可以在Rstudio右上角直接点击Result来查看具体的富集情况。此时我们就可以通过鼠标点击各列进行数值大小排序,或者直接搜索对应条目,来找到需要展示的GO条目。
图3:富集情况明细
barplot(go_result,showCategory=20) # 用条形图可视化
dotplot(go_result,showCategory=20) # 用点图可视化
如果我们需要单独挑选一些GO通路来展示,我们就可以先把一些GO条目名称提取成一个向量,然后通过向量筛选enrichResult对象,最后可视化这个筛选后的对象,参考下面的代码:
related<-c('GO:0046605','GO:0043113') # 假设要可视化这2个GO条目
go_result_subset = dplyr::filter(go_result, ID %in% related) # 调用dplyr的filter函数筛选
barplot(go_result_subset, showCategory=30, title="GO_BP") # 可视化并添加图片标题
图4:经典的GO富集条形图与点图
小 结
最后我们来简单总结通路富集分析的一些关键的要点:
奥智生物最新转录组培训班来了!本期课程不仅包含必学的通路富集分析(理论+实操),还有实用的Deepkeck科研绘图与R语言入门课程!无论你是零基础还是想提升,这里都有你需要的实操干货,有需要的各位老师同学还请抓紧时间报名。
● 培训答疑群,遇到问题随时问及时答;
方式一
方式二
方式三
参考文献
[1] Wu T., Hu E., Xu S., et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data [J]. Innovation (Camb), 2021, 2(3): 100141.
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。
Omicsmaster
让每一分科研投入
都物超所值

