WGCNA和机器学习预测潜在hub基因- 大数跨境

首页

WGCNA和机器学习预测潜在hub基因

中科生信

2021-11-20

导读：到目前为止，新型冠状病毒(COVID-19)已经造成大量人员死亡。目前世界各地都在进行疫苗和药物的临床试验，然而，目前还没有找到针对COVID-19的有效药物。

点击蓝字

关注我们

题目: Bioinformatics and machine learning approach identifies potential drug targets and pathways in COVID-19

期刊：Briefings in Bioinformatics

影响因子：16.6

发表年份：2021

DOI: 10.1093/bib/bbab120

研究意义？

答

到目前为止，新型冠状病毒(COVID-19)已经造成大量人员死亡。

目前世界各地都在进行疫苗和药物的临床试验，然而，目前还没有找到针对COVID-19的有效药物。

识别COVID-19的关键基因和干扰途径可能会发现潜在的药物靶标和生物标志物。

研究目的？

答

本文旨在鉴别与COVID-19相关的hub基因模块和中枢靶点

结果？

答

通过基因共表达分析，文章分析了

SARS-CoV-2感染的peripheral blood mononuclear cell (PBMC)的转录组数据，从GSE152418和CRA002390 PBMC数据集中，分别鉴定出1520和1733个差异表达基因(DEGs) (FDR < 0.05)。

基于module membership (MMhub)和protein–protein interaction (PPI)找到了

4个hub基因模块及其对应的hub基因标签。

通过富集分析对hub基因模块进行功能注释，以阐明DEGs富集的免疫和炎性反应生物学过程。通路分析显示hub基因富集于IL-17 signaling pathway, cytokine–cytokine receptor interaction pathways.

文章展示了分类性能>0.9的hub基因(PLK1, AURKB, AURKA, CDK1, CDC20, KIF11, CCNB1, KIF2C, DTL and CDC6)，表明这些基因有作为生物标志物的潜力。

通过调控网络分析找到了以这些hub基因为靶向的转录因子(TF)和microRNAs。

药物-基因互作分析表明amsacrine, BRD-K68548958, naproxol, palbociclib 和 teniposide是得分最高的药物。本文发现的的生物标志物和通路可能是COVID-19的治疗靶点。

路线

方法&结果

1 RNA测序数据集

本文用了2个SARS-CoV-2 (COVID-19)患者RNA序列测序的PBMC数据集，GSE152418是原始的counts数据集，注释平台是GPL24676，包含了34 个样本(17 个COVID-19患者样本和17个健康对照组样本)。另一个数据集来自中国科学院，登录号为CRA002390，包含3名COVID-19感染患者和3名健康捐赠者的PBMC样本。本研究使用GSE152418发现数据集对WGCNA进行分析，使用CRA002390发现数据集进行独立验证。

2 数据预处理及差异基因表达分析

COVID-19转录组数据集GSE152418包含大量基因(60 683个基因)。数据预处理时，将低表达基因(所有样本的count数之和<100)剔除，然后通过R语言中的DESeq2包对数据集进行差异基因表达分析。对于CRA002390已经标准化之后的数据集，我们使用R中的limma包来识别DEGs。DEGs鉴定阈值设为：FDR < 0.05& log2(FC) ≥ 1。

3 加权基因共表达网络的构建

WGCNA第一步是剔除离群样本(如果存在)

用R中的WGCNA包来构建加权基因共表达网络，找到合适的软阈值，通过软阈值转化为邻接矩阵和拓扑重叠矩阵(TOM)，进转化为基因表达矩阵。

计算的TOM用于网络热图的绘制及后续分析。

4 保存关键模块

为了找到关键模块，我们使用了模块保存分析，modulePreservation函数用来评估每个模块基因数量以及在几个数据集中的可重复性。如果保存统计量Z summary>10，则认为该模块已保存。

5 GO和KEGG注释

共表达模块中连接度很高的基因可能具有相似的生物功能，因此对关键模块的基因做了GO和KEGG富集分析，旨在探明关键模块基因的潜在功能。把adjusted P-value <0.05设为GO和KEGG显著的标准。

6 hub基因的鉴定和验证

在一个基因模块中，可以反应该模块最大特征的、具有最大连接度的节点，被认为是关键基因，模块之间的连接度用|cor.geneModuleMembership| > 0.8来评估。然后，将所有候选的关键基因导入STRING数据库，阈值设为confidence score cutoff >900，构建蛋白质-蛋白质互作网络(PPI)。PPI网络中连接度(connectivity degree) ≥8 的基因被认为是hub基因，CRA002390作为验证集来验证hub基因作为生物标志位的潜力，挑选在CRA002390数据集中MMhub, PPIhub 以及DEGs三个步骤都通过的hub基因作为后续分析的hub基因。