大数跨境

【生信入门】No.2 火山图 热图(差异表达分析)和气泡图(功能富集分析)解析

【生信入门】No.2 火山图 热图(差异表达分析)和气泡图(功能富集分析)解析 lucky出海
2025-10-21
275
导读:介绍包括火山图、热图和气泡图,并对其相应的生物信息学分析作补充介绍,包括差异表达分析和功能富集分析。

 

生物信息学文章往往有花花绿绿的图,该篇基于对Figure的解读,介绍包括火山图、热图和气泡图。并对其相应的生物信息学分析作补充介绍,包括差异表达分析和功能富集分析。

在这里不深究其统计学原理,能看懂并理解图的意思即可,希望有所帮助。

图型
核心
应用
火山图
关键基因在对照组和实验组之间差异
差异表达分析
热图
基因和样本之间表达模式存在不同
差异表达分析&聚类分析
气泡图
关键基因涉及功能或通路
功能富集分析

开始介绍火山图、热图和气泡图之前,我们先了解一下差异表达分析

简单来说,差异表达分析就是找两组样本间(对照组和实验组)不一样的基因,有关其统计学并不需要深入了解,现在使用相应的R包和代码是能很快得到结果的。

但这个差异表达分析的结果通常是一个大表格,包含了基因的很多项统计结果,对我们比较重要的是表达差异倍数(FC)、显著性P值(或校准后P值)。

FC值:

倍数变化,表示两组数据的倍数差。比如实验组和对照组比较,某基因在实验组的表达量是对照组的2倍,FC即为2,FC绝对值越大说明差异越大。

P值:

概率值,表示结果可信度。同样,比如差异分析计算FC为2,而P=0.01,意思是这组差异是纯偶然出现的概率为1%,概率越低说明结果越靠谱。

通常情况下我们的一个判断标准为FC绝对值>2且P值<0.05,即一个基因达到这个标准我们就认为这个基因是差异基因。

步入正题,我们得到的差异分析结果通常用图的形式展示关键信息,最常见的是火山图、热图。

火山图

从成千上万的基因中,快速锁定既有显著统计学意义(P值<0.05),又有巨大变化幅度(FC绝对值>2)的差异基因,他们往往是研究的关键基因。

但在火山图表示时,我们通常不直接用FC值和P值,而是用log₂FC以及-log₁₀(P Value),即log₂FC的阈值是  ,对应FC绝对值为2,-log₁₀(P Value)的阈值是 1.301(对应 )。

X轴:log₂(FC),表示变化倍数。越靠近两侧(左/右),变化倍数越大。左侧代表下调,右侧代表上调。

Y轴:-log₁₀(P Value),表示统计学显著性。越高代表越显著,绝非偶然

“找两边,看高低”。真正有生物学意义的点,通常位于图左上角(显著下调)和右上角(显著上调)的角落里的点。

如图,一个点代表一个基因,作者以黑色、蓝色和红色作了区分。黑点代表 “无显著差异” 的基因,蓝色代表显著下调基因,红色代表显著上调基因。

同时我们注意到文章设置的显著性阈值(通常用两条虚线标明),虽然该图并没直接标明,但其正文给出了其标准为p<0.05 and |log₂FC|>0.2

这也是我想说明的,FC绝对值>2且P值<0.05的“通用标准”有时并不能得到很好应用,常常要根据实际情况灵活调整

比如代谢组学的差异分析,通常代谢物受生理状态影响更敏感,很多功能性代谢物差异倍数达到1.5已经具备了较明确的生物学意义

|log₂FC|>0.2相当于FC值约为1.1478,这个设置是有点冒险的,因为它意味着实验组比对照组表达差异还不到1.15倍我们就判定为差异基因了,这一标准也是我目前找到的现有文献最低阈值

此外,还有文章并不采用原始P值,而是一个叫FDR的值,即调节后P值。

Benjamini-Hochberg(BH)法校正的 FDR(False Discovery Rate,假阳性发现率),能更严格地控制 “错误发现的比例”。

热图

热图是非常“花里胡哨”的一个图,它是有一定的视觉冲击效果的,其核心功能是直观展示大量基因在不同样本中的表达模式,同时进行基因聚类和样本聚类。

热图中通常行表示基因,列表示样本,一个小格子代表一个 “指标(基因)” 在一个 “样本” 中的表达水平(或差异程度),并用颜色深浅来直观展示。

看颜色是核心,红色通常代表高表达,蓝色代表低表达,颜色越红表示该指标在这个样本中表达越高,反之亦然,但注意检查说明。

热图最大的意义是一眼扫过去就能看出哪些样本在高表达,哪些在低表达,能直观判断对照组和实验组的模式不同

此外,有些热图会附加树状图表示聚类,行聚类会把 “表达趋势相似的指标” 聚在一起,而列聚类(上方树状图)把 “表达模式相似的样本” 聚在一起。

如图,某基因在 “MDD 组” 普遍呈红色(高表达),在 “Control 组” 普遍呈蓝色(低表达),说明该基因可能与 MDD 的发生发展有关。

行聚类(左侧树状图)把 “表达趋势相似的指标” 聚在一起。比如某几个基因在所有样本都是 “你高我也高,你低我也低”,归聚到同一分支下,说明它们可能有相似的生物学功能或调控机制。

差异分析找到关键基因之后,我们还要清楚这些基因的功能,判断它在样本之间差异说明它对应的什么功能或信号通路发生了变化,这就是功能富集分析。

打比方就是发现某些基因差异表达之后,功能富集分析告诉你 “这些基因大多参与细胞增殖、凋亡相关的通路”,这样你就知道疾病可能是因为这些通路出问题了。

对应功能富集分析的结果,经常以气泡图展示。但在介绍之前,我们先补充对KEGG分析和GO分析的介绍,这是常用的两种功能富集分析方法。

KEGG分析:

Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书),被称为 “生物通路地图”。其把基因和对应参与的 “信号通路”或“代谢途径” 联系起来,告知我们基因如何协同工作完成复杂的生命活动。

通过 KEGG 分析,我们能知道差异基因主要集中在哪些通路里。这些通路是否与疾病或生理过程(如发育、免疫)相关,从而找到 “基因→通路→表型(如疾病)” 的关联。

GO分析:

Gene Ontology(基因本体论),被称为 “基因功能词典”。其把基因功能分成了3个大类别,分别是生物学过程(Biological Process, BP)、细胞组分(Cellular Component, CC)、分子功能(Molecular Function, MF)。各类别下再细分具体功能,使所有基因的功能有了统一的描述标准。

通过 GO 分析,我们能知道差异基因主要集中在哪些功能类别。是更多参与某个生理过程,还是集中在某个细胞部位,或是有特定的分子功能。

气泡图

简单来说,气泡图的核心功能是展示关键基因最显著富集的生物学功能(如GO term)或信号通路(如KEGG pathway)。

一个气泡代表一个功能/通路,气泡大小通常代表富集到该通路中的基因数量,气泡颜色通常代表富集的显著性(-log₁₀(P Value)),颜色越深越显著。

横轴通常是富集因子,值越大说明富集程度越高,纵轴是具体的 “通路名称”或 “生物学过程名称”“细胞组分名称” 和 “分子功能名称”。

如图,分别是KEGG分析和GO分析,气泡颜色越蓝,P值越小(显著性越强),颜色越红,P值越大(显著性越弱)。

例图的KEGG分析中“Hematopoietic cell lineage(造血细胞谱系)” 的气泡最大、横轴数值最高且颜色偏红(P值小),说明有大量差异基因参与这个通路,且该通路的显著性很强,提示造血细胞谱系通路是研究中的关键信号通路。

GO分析的理解思路同上,不作赘述。


参考文献:
Yan B, Liao P, Han Z, et al. Association of aging related genes and immune microenvironment with major depressive disorder. J Affect Disord. 2025;369:706-717. doi:10.1016/j.jad.2024.10.053                                                                                                               

正文所有例图参考自其Figure 2.

 

【声明】内容源于网络
0
0
lucky出海
跨境分享圈 | 每天分享跨境干货
内容 44213
粉丝 27
lucky出海 跨境分享圈 | 每天分享跨境干货
总阅读883.8k
粉丝27
内容44.2k