大数跨境

WGCNA和机器学习预测潜在hub基因

WGCNA和机器学习预测潜在hub基因 中科生信
2021-11-20
4
导读:到目前为止,新型冠状病毒(COVID-19)已经造成大量人员死亡。目前世界各地都在进行疫苗和药物的临床试验,然而,目前还没有找到针对COVID-19的有效药物。


点击蓝字

关注我们


题目: Bioinformatics and machine learning approach identifies potential drug targets and pathways in COVID-19

期刊:Briefings in Bioinformatics

影响因子:16.6

发表年份:2021

DOI: 10.1093/bib/bbab120

研究意义?

到目前为止,新型冠状病毒(COVID-19)已经造成大量人员死亡。

目前世界各地都在进行疫苗和药物的临床试验,然而,目前还没有找到针对COVID-19的有效药物。

识别COVID-19的关键基因和干扰途径可能会发现潜在的药物靶标和生物标志物。

研究目的?

本文旨在鉴别与COVID-19相关的hub基因模块和中枢靶点

结果?

1

 通过基因共表达分析,文章分析了

SARS-CoV-2感染的peripheral blood mononuclear cell (PBMC)的转录组数据,从GSE152418和CRA002390 PBMC数据集中,分别鉴定出1520和1733个差异表达基因(DEGs) (FDR < 0.05)

2

基于module membership (MMhub)和protein–protein interaction (PPI)找到了

4个hub基因模块及其对应的hub基因标签。

通过富集分析对hub基因模块进行功能注释,以阐明DEGs富集的免疫和炎性反应生物学过程。通路分析显示hub基因富集于IL-17 signaling pathway, cytokine–cytokine receptor interaction pathways.

3

文章展示了分类性能>0.9的hub基因(PLK1, AURKB, AURKA, CDK1, CDC20, KIF11, CCNB1, KIF2C, DTL and CDC6),表明这些基因有作为生物标志物的潜力。

通过调控网络分析找到了以这些hub基因为靶向的转录因子(TF)和microRNAs

4

药物-基因互作分析表明amsacrine, BRD-K68548958, naproxol, palbociclib 和 teniposide是得分最高的药物。本文发现的的生物标志物和通路可能是COVID-19的治疗靶点。

路线



方法&结果

1 RNA测序数据集

本文用了2个SARS-CoV-2 (COVID-19)患者RNA序列测序的PBMC数据集,GSE152418是原始的counts数据集,注释平台是GPL24676,包含了34 个样本(17 个COVID-19患者样本和17个健康对照组样本)。另一个数据集来自中国科学院,登录号为CRA002390,包含3名COVID-19感染患者和3名健康捐赠者的PBMC样本。本研究使用GSE152418发现数据集对WGCNA进行分析,使用CRA002390发现数据集进行独立验证。


2 数据预处理及差异基因表达分析

COVID-19转录组数据集GSE152418包含大量基因(60 683个基因)。数据预处理时,将低表达基因(所有样本的count数之和<100)剔除,然后通过R语言中的DESeq2包对数据集进行差异基因表达分析。对于CRA002390已经标准化之后的数据集,我们使用R中的limma包来识别DEGs。DEGs鉴定阈值设为:FDR < 0.05& log2(FC) ≥ 1。


3 加权基因共表达网络的构建

WGCNA第一步是剔除离群样本(如果存在)

用R中的WGCNA包来构建加权基因共表达网络,找到合适的软阈值,通过软阈值转化为邻接矩阵和拓扑重叠矩阵(TOM),进转化为基因表达矩阵。


计算的TOM用于网络热图的绘制及后续分析。


4 保存关键模块

为了找到关键模块,我们使用了模块保存分析,modulePreservation函数用来评估每个模块基因数量以及在几个数据集中的可重复性。如果保存统计量Z summary>10,则认为该模块已保存。


5 GO和KEGG注释

共表达模块中连接度很高的基因可能具有相似的生物功能,因此对关键模块的基因做了GO和KEGG富集分析,旨在探明关键模块基因的潜在功能。把adjusted P-value <0.05设为GO和KEGG显著的标准。


6 hub基因的鉴定和验证

在一个基因模块中,可以反应该模块最大特征的、具有最大连接度的节点,被认为是关键基因,模块之间的连接度用|cor.geneModuleMembership| > 0.8来评估。然后,将所有候选的关键基因导入STRING数据库,阈值设为confidence score cutoff >900,构建蛋白质-蛋白质互作网络(PPI)。PPI网络中连接度(connectivity degree) ≥8 的基因被认为是hub基因,CRA002390作为验证集来验证hub基因作为生物标志位的潜力,挑选在CRA002390数据集中MMhub, PPIhub 以及DEGs三个步骤都通过的hub基因作为后续分析的hub基因。



7 转录因子和miRNAs预测

JASPAR数据库寻找以hub基因为靶向的转录因子,Tarbase和mirTarbase用来分析miRNAs和hub基因的相互作用关系。数据库得到的网络图均用Cytoscape软件进行可视化。

微信号 : 中科生信

新浪微博:@中科生信

● 扫码关注我们

点击上方“公众号” 可以订阅哦!
【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.5k
粉丝0
内容580