GSEA与KEGG基础
要理解GSEA-KEGG通路分布图,首先得了解它的两个核心组成部分:
· GSEA:GSEA(基因集富集分析)的核心思想是不预先筛选差异基因,而是将所有基因根据其与表型的关联程度(例如logFC值)从高到低排序。分析时,会检查一个预先定义的基因集(例如某个KEGG通路中的所有基因)在这个排序列表中的分布位置。如果该基因集的成员主要聚集在列表的顶端或底部,则认为该基因集在对应的实验条件下发生了显著富集。分析结果会给出富集得分,正分表示基因集在列表顶端富集,负分则表示在列表底部富集。
· KEGG:KEGG是一个整合了基因组、化学和系统功能信息的数据库,包含了大量已知的生物代谢通路和信号转导通路。在GSEA中,KEGG通路常被用作预先定义的基因集。
这张图告诉你三件事:
1. 排名基因列表:
X轴是整个基因组的所有基因,按照它们与表型的关联程度(例如,处理组 vs 对照组的表达差异)从大到小排序。
最左边是上调最显著的基因。
最右边是下调最显著的基因。
2. 富集得分曲线:
中间隆起的黑线是富集得分曲线。
当曲线向上走:表示遇到属于该KEGG通路的基因。
当曲线向下走:表示遇到不属于该通路的基因。
峰值的意义:曲线的最高点就是富集得分。峰值出现在左侧,说明该通路基因主要在上调基因中富集;峰值出现在右侧,说明主要在下调基因中富集。
3. 基因集成员位置:
图下方的竖线标记了该KEGG通路中所有基因在排序列表中的具体位置。
这些竖线密集分布的区域,就是对该通路富集得分贡献最大的“核心区域”。
解读不同图表类型的要点
除了经典的富集图,你还可能遇到其他展示形式:
绘制工具与方法
绘制这些图表,你可以选择以下几种工具和方法:
R语言与clusterProfiler包:这是最常用且功能强大的分析方式。
你需要准备一个按某个指标(如与表型的相关性、logFC值)从大到小排序的基因列表。
使用gseKEGG()函数进行分析。
分析结果中包含一个名为 core_enrichment 的列,它列出了对富集信号贡献最大的核心基因。深入分析这些核心基因,能帮你理解通路的具体变化。
在线工具:如果你不熟悉编程,一些在线平台提供了便捷的绘图功能。
实用提示与注意事项
进行GSEA-KEGG分析时,有几点需要特别留意:
关于基因列表:GSEA分析需要的是全部基因而不仅仅是显著差异基因的列表,并且这些基因需要按照其与表型的关联程度(例如logFC)进行排序。
关于核心基因:core_enrichment中的基因是对富集信号贡献最大的成员,它们通常位于富集图的峰值之前。在解读通路机制时,应重点关注这些核心基因。
KEGG通路图的绘制与简化:如果你希望将基因表达数据映射到具体的KEGG通路图上,可以参考以下步骤:
在KEGG官网找到目标通路图。
利用分析结果,找到通路图中各个酶或蛋白对应的基因及其表达数据(如logFC值)。
可以使用PPT、AI等软件,将表达数据(常用热图形式)整合到简化后的通路框架上,从而生成一张能够直观展示机制的通路图。
总结:解读三步法
要成为解读高手,记住这三个步骤:
定方向:峰在哪?左峰 (正NES) = 上调/激活,右峰 (负NES) = 下调/抑制。
看强度:峰多高?峰越高,富集得分绝对值越大,说明该通路基因的表达变化趋势越一致和强烈。
判意义:结合生物学知识,思考这个通路的上下调是否符合你的实验假设,能否讲出一个合理的生物学故事。
目标
应用科学技术,让人民的生活更美好。
联系我们,打造非凡的人工智能 & 多肽产品
muyonglin@aiptide.com
”
关注我们
ATTENTION US
<了解更多信息>
- 作品说明 -
素材 | 智普肽德
文案 | 智普肽德
图片 | 智普肽德

