点击蓝字
关注我们
题目: Bioinformatics and machine learning approach identifies potential drug targets and pathways in COVID-19
期刊:Briefings in Bioinformatics
影响因子:16.6
发表年份:2021
DOI: 10.1093/bib/bbab120
研究意义?
答
到目前为止,新型冠状病毒(COVID-19)已经造成大量人员死亡。
目前世界各地都在进行疫苗和药物的临床试验,然而,目前还没有找到针对COVID-19的有效药物。
识别COVID-19的关键基因和干扰途径可能会发现潜在的药物靶标和生物标志物。
研究目的?
答
本文旨在鉴别与COVID-19相关的hub基因模块和中枢靶点
结果?
答
1
通过基因共表达分析,文章分析了
SARS-CoV-2感染的peripheral blood mononuclear cell (PBMC)的转录组数据,从GSE152418和CRA002390 PBMC数据集中,分别鉴定出1520和1733个差异表达基因(DEGs) (FDR < 0.05)。
2
基于module membership (MMhub)和protein–protein interaction (PPI)找到了
4个hub基因模块及其对应的hub基因标签。
通过富集分析对hub基因模块进行功能注释,以阐明DEGs富集的免疫和炎性反应生物学过程。通路分析显示hub基因富集于IL-17 signaling pathway, cytokine–cytokine receptor interaction pathways.
3
文章展示了分类性能>0.9的hub基因(PLK1, AURKB, AURKA, CDK1, CDC20, KIF11, CCNB1, KIF2C, DTL and CDC6),表明这些基因有作为生物标志物的潜力。
通过调控网络分析找到了以这些hub基因为靶向的转录因子(TF)和microRNAs。
4
药物-基因互作分析表明amsacrine, BRD-K68548958, naproxol, palbociclib 和 teniposide是得分最高的药物。本文发现的的生物标志物和通路可能是COVID-19的治疗靶点。
路线
方法&结果
1 RNA测序数据集
本文用了2个SARS-CoV-2 (COVID-19)患者RNA序列测序的PBMC数据集,GSE152418是原始的counts数据集,注释平台是GPL24676,包含了34 个样本(17 个COVID-19患者样本和17个健康对照组样本)。另一个数据集来自中国科学院,登录号为CRA002390,包含3名COVID-19感染患者和3名健康捐赠者的PBMC样本。本研究使用GSE152418发现数据集对WGCNA进行分析,使用CRA002390发现数据集进行独立验证。
2 数据预处理及差异基因表达分析
COVID-19转录组数据集GSE152418包含大量基因(60 683个基因)。数据预处理时,将低表达基因(所有样本的count数之和<100)剔除,然后通过R语言中的DESeq2包对数据集进行差异基因表达分析。对于CRA002390已经标准化之后的数据集,我们使用R中的limma包来识别DEGs。DEGs鉴定阈值设为:FDR < 0.05& log2(FC) ≥ 1。
3 加权基因共表达网络的构建
WGCNA第一步是剔除离群样本(如果存在)
用R中的WGCNA包来构建加权基因共表达网络,找到合适的软阈值,通过软阈值转化为邻接矩阵和拓扑重叠矩阵(TOM),进转化为基因表达矩阵。
计算的TOM用于网络热图的绘制及后续分析。
4 保存关键模块
为了找到关键模块,我们使用了模块保存分析,modulePreservation函数用来评估每个模块基因数量以及在几个数据集中的可重复性。如果保存统计量Z summary>10,则认为该模块已保存。
5 GO和KEGG注释
共表达模块中连接度很高的基因可能具有相似的生物功能,因此对关键模块的基因做了GO和KEGG富集分析,旨在探明关键模块基因的潜在功能。把adjusted P-value <0.05设为GO和KEGG显著的标准。
6 hub基因的鉴定和验证
在一个基因模块中,可以反应该模块最大特征的、具有最大连接度的节点,被认为是关键基因,模块之间的连接度用|cor.geneModuleMembership| > 0.8来评估。然后,将所有候选的关键基因导入STRING数据库,阈值设为confidence score cutoff >900,构建蛋白质-蛋白质互作网络(PPI)。PPI网络中连接度(connectivity degree) ≥8 的基因被认为是hub基因,CRA002390作为验证集来验证hub基因作为生物标志位的潜力,挑选在CRA002390数据集中MMhub, PPIhub 以及DEGs三个步骤都通过的hub基因作为后续分析的hub基因。
7 转录因子和miRNAs预测
JASPAR数据库寻找以hub基因为靶向的转录因子,Tarbase和mirTarbase用来分析miRNAs和hub基因的相互作用关系。数据库得到的网络图均用Cytoscape软件进行可视化。

