通过整合生物信息学分析和小治疗分子预测,识别多囊卵巢综合征的关键通路和基因
本次小编推荐一篇2021年2月23日发表于Reprod Biol Endocrinol的文献,题目为《Identification of key pathways and genes in polycystic ovary syndrome via integrated bioinformatics analysis and prediction of small therapeutic molecules》,影响因子为5.211。本研究使用的是GEO中的数据集(GSE84958),并通过对该数据集进行了DEGs识别、GO通路富集分析、网络构建与模块分析、ROC曲线分析、验证Hub基因表达水平、分子对接研究等经典的生信分析,识别多囊卵巢综合征的关键通路和基因。
摘要:
为了提高对多囊卵巢综合征(PCOS)分子水平的认识,本研究拟采用综合生物信息学分析方法,探讨多囊卵巢综合征相关基因及通路。基于从GEO数据库获取的高通量测序数据GSE84958的表达谱,鉴定PCOS样本与正常对照之间的差异表达基因(DEGs),并进行了功能富集分析,构建并可视化了蛋白-蛋白相互作用(PPI)网络、miRNA-靶基因网络和TF-靶基因网络,通过这些网络识别中心基因节点。采用受试者工作特征(receiver operating characteristic, ROC)和RT-PCR对hub基因进行验证。利用分子对接技术预测药物小分子。共鉴定出739个基因,其中上调基因360个,下调基因379个。GO富集分析显示,上调基因主要参与肽代谢过程、细胞器包膜和RNA结合,下调基因显著富集于质膜有界细胞投射组织、神经元投射和DNA结合转录因子活性、RNA聚合酶II特异性。REACTOME途径富集分析表明,上调基因主要富集在翻译和呼吸电子传递中,下调基因主要富集在普通转录途径和小分子跨膜转运中。从PPI网络、miRNA-靶基因网络和TF-靶基因网络中鉴定出前10位枢纽基因(SAA1、ADCY6、POLR2K、RPS15、RPS15A、CTNND1、ESR1、NEDD4L、KNTC1和NGFR)。模块分析表明,模块中的基因主要与呼吸电子的运输和NGF的信号传导有关。我们发现了一系列与PCOS的启动和发展最为密切相关的关键基因。我们的研究为PCOS的进展提供了更详细的分子机制,以及潜在的生物标志物和治疗靶点的详细信息。
介绍:
多囊卵巢综合征(PCOS)是世界上最普遍的内分泌失调之一,估计全世界每15名妇女中就有1人患多囊卵巢综合征。多囊卵巢综合征使患者面临重大的社会心理负担,其特征是高雄激素和慢性无排卵。糖尿病、心脏病、肥胖、非酒精性脂肪肝和高血压是PCOS的危险因素。因此,明确多囊卵巢综合征的病因、分子机制和途径,以发现新的诊断标志物、预后标志物和治疗靶点至关重要。
近年来,许多研究策略对多囊卵巢综合征的分子机制进行了研究。在这些研究策略中,高通量RNA测序技术得到了广泛的关注,并在内分泌疾病领域取得了重大进展,从分子诊断到分子分类,从患者分层到预后预测,以及新药靶点的发现和反应预测。此外,利用高通量RNA测序对多囊症进行了基因表达谱研究,已经诊断出了该综合征的几个关键基因和诊断生物标志物,包括在不同途径、生物过程、或者分子函数。通过从多囊卵巢综合征的不同研究中获得的高通量测序数据对表达谱进行整合生物信息学分析,有助于识别新的诊断标志物和预后标志物,并进一步阐明其相关功能和潜在的治疗靶点。
因此,在本次调查中,我们从公开的基因表达综合数据库GEO检索数据集(GSE84958),使用综合生物信息学分析来识别DEGs和相关的生物过程PCOS。对其进行功能富集和通路分析;构建蛋白-蛋白相互作用(protein-protein interaction, PPI)网络、miRNAs-靶基因调控网络和TFs-靶基因调控网络,筛选关键基因miRNA和TFs。本研究的目的是通过生物信息学分析,识别多囊卵巢综合征的关键基因和通路,进而探讨多囊卵巢综合征的分子机制,并分类新的潜在的多囊卵巢综合征诊断治疗生物标志物。我们预期这些研究将在分子水平上进一步了解多囊卵巢综合征的发病机制和进展。
结果:
数据集:
从下一代测序公共数据库NCBI-GEO下载高通量测序数据集GSE84958的表达谱,过滤PCOS和正常对照之间的DEGs。GSE84958的高通量测序基于GPL16791平台(Illumina HiSeq 2500 (Homo sapiens)),由30个PCOS样本和23个正常对照组成。
识别DEGs:
高通量测序数据集通过包含PCOS样本和正常对照样本GSE84958的国家生物技术信息中心GEO数据库获得。然后,使用R包“limma”进行分析,调整阈值为P < 0.05,上调基因为[logFC] > 2.5,下调基因为[logFC] < -1.5。所有的DEGs都显示在火山图中(图1)。与正常对照相比,PCOS样本共鉴定出739个DEGs,其中上调基因360个,下调基因379个。结果显示在热图中(图2)。
图1.差异表达基因的火山图。绿点代表上调的显著基因,红点代表下调的显著基因
图2.差异表达基因热图。左上角的图例表示基因的logFC变化。(A1-A2 =正常对照样本;B1-B30 = PCOS样品)
GO和PCOS中DEGs的富集通路:
选择前739个DEGs进行GO和REACTOME通路富集分析。基因本体论(Gene Ontology, GO)分析发现,这些基因在BP中显著富集,包括肽代谢过程、细胞内蛋白转运、质膜边界细胞投影组织和细胞形态发生。CC中,DEGs主要富集在细胞器包膜中,催化复合物、神经元投影和细胞连接中GO富集最显著。此外,MF表明,这些DEGs在RNA结合、转录因子结合、DNA结合转录因子活性、RNA聚合酶II特异性和ATP结合中均有富集。采用REACTOME通路富集分析筛选差异基因的信号通路。这些DEGs主要参与小分子的翻译、呼吸电子传递、通用转录途径和跨膜转运。
PPI网络构建与模块分析:
基于PPI网络的分析,在Cytoscape中识别了4141个节点和14853个边缘(图3a)。得分较高的基因为中心基因,节点度、间性中心性、压力中心性、近距离中心性等基因可能与PCOS有关。排在前10位的Hub基因为SAA1、ADCY6、POLR2K、RPS15、RPS15A、ESR1、LCK、S1PR5、CCL28和CTNND1。富集分析表明,模块1 (图3b)和模块2 (图3c)可能与呼吸电子传递、细胞器包膜、催化复合物、基因表达、NGF信号传导和神经元投射等相关。
图3.PPI网络和DEGs最重要的模块。A.利用Cytoscape构建了基因的PPI网络。B.PPI网络中的显著模块,有26个节点和160个边,用于表达上调的基因。C.PPI网络中的显著模块,上调基因有26个节点和71个边。上调的基因用绿色标记;下调的基因用红色标记
miRNA-靶调控网络的构建:
结合miRNA靶基因的结果和miRNA的交互网络,筛选出281个hub基因,其中2138个为miRNA。基因和miRNAs如图4a所示。具体来说,检测到97个调控RPL13A的miRNAs (ex, hsa-mir-8067),95个调控RPS15A的miRNAs (ex, hsa-mir-4518),71个调控RPLP0的miRNAs (ex, hsa-mir-3685),65个调控ADCY6的miRNAs (ex, hsa-mir-1202),48个调控RPS29的miRNAs (ex, hsa-mir-4461),129个调控CTNND1的miRNAs (ex, hsa-mir-8082),98个miRNAs (ex, hsa-mir-8082),76个调控NEDD4L的miRNAs (ex, hsa-mir-548am-5p),62个调控KNTC1的miRNAs (ex, hsa-mir-6886-3p)和56个调控NGFR的miRNAs (ex, hsa-mir-9500)。
图4.A.靶基因-miRNA在靶基因和miRNA之间的调控网络。B.靶基因-靶基因在靶基因和TF之间调控网络。上调的基因用绿色标记;下调的基因用红色标记;紫色菱形节点代表关键miRNAs;蓝色的三角形节点代表关键的TFs。
TF-靶点调控网络的构建:
结合TF-靶基因的结果和TF的交互网络,筛选出455个枢纽基因,其中274个是TF。图4b所示为基因和TF。具体来说,15个TFs(ex, PER3)调节RBX1,13个TFs(ex, CTCF)调节RPS15,12个TFs(ex, E2F7)调节RPS20,11个TFs(ex, LMO2)调节ADCY6,9个TFs(ex, POLR2H)调节POLR2K,122个TFs(ex, NCOA2)调节ESR1,21个microRNA(ex, EBF1)调节LCK,18个TFs (ex, SMAD2)调节激活,17个TFs调节NEDD4L。
受试者工作特征(ROC)曲线分析:
此外,利用“pROC”包进行ROC曲线分析,计算10个中枢基因区分PCOS与正常对照的能力。SAA1、ADCY6、POLR2K、RPS15、RPS15A、CTNND1、ESR1、NEDD4L、KNTC1和NGFR均表现出良好的诊断效率(AUC > 0.7)(图5)。
图5.ROC曲线验证了中枢基因作为PCOS预后预测生物标志物的敏感性和特异性。
RT-PCR验证Hub基因表达水平:
为了进一步验证所选枢纽基因的表达模式,采用实时荧光定量PCR技术对枢纽基因表达进行定量分析。结果表明,SAA1、ADCY6、POLR2K、RPS15、RPS15A、CTNND1、ESR1、NEDD4L、KNTC1、NGFR等10个hub基因的相对表达水平与高通量测序的表达谱一致(图6)。
图6.Hub基因的RT-PCR验证。
分子对接研究:
在目前的分析中,进行了对接模拟,以分类活性位点构象和与受体结合位点的重要相互作用负责复杂的稳定性。在多囊卵巢综合征中发现过表达基因,并从PDB中选取其x射线晶体结构进行对接研究。含有类固醇核的标准药物通常单独或与其他药物联合使用。使用Sybyl X 2.1药物设计软件对含有甾体环的标准分子进行对接研究。通过对接研究,了解标准分子与蛋白质过表达基因的结合作用。选取POLR2K、RPS15、RPS15和SAA1四个过表达基因的PDB编码1LE9、3OW2、1G1X和4IP8共结晶蛋白的X- RAY晶体结构分别进行对接(图7)。将炔雌醇(ETE)、左炔诺孕酮(LNG)和去炔雌醇(DSG)三种药物分子与过表达蛋白对接,以评估其与蛋白质的结合亲和力。结合得分大于6分的称为良好,三种药物分子的结合得分均大于7分。ETE与PDB编码为4IP8的SAA1结合得分为9.943,与1G1X、3OW2和1LE9的SAA1结合得分为8.260、8.223和8.019。LNG获得了PDB代码4IP8的SAA1的8.535分,PDB代码3OW2、1LE9和1G1X的RPS15、POLR2K和RPS15 alpha的8.351、7.973和7.854分的最高绑定分数。DSG: PDB码1LE9的POLR2K最高,为8.273;PDB码4IP8的SAA1最高,为8.158;PDB码1G1X的RPS15 alpha最高,为7.745;PDB码3OW2的RPS15最低,为5.674。分子ETE和LNG的结合得分最高,其与蛋白质4IP8和氢键的相互作用以及与氨基酸的其他键相互作用用3D(图8)和2D(图9)描述。
图7.设计分子的结构
图8.分子ETE与4IP8的二维结合
图9.分子ETE与4IP8的三维结合
>>>end
扫描二维码
关注我们

