大数跨境

原发性骨髓纤维化 (PMF) +WGCNA

原发性骨髓纤维化 (PMF) +WGCNA 中科生信
2021-10-29
2
导读:本次小编分享一篇在2021年5月发表于Aging (Albany NY)的文献,题目为《Transcript

本次小编分享一篇在2021年5月发表于Aging (Albany NY)的文献,题目为《Transcriptome research identifies four hub genes related to primary myelofibrosis: a holistic research by weighted gene co-expression network analysis》,影响因子5.681。

01

摘要

目的:本研究旨在确定原发性骨髓纤维化 (PMF) 的特定诊断和预测目标。

方法:从基因表达综合(GEO)数据集中获取GSE26049的基因表达谱,构建WGCNA以识别与PMF最相关的模块。随后,通过GO、KEGG、GSEA和PPI网络,全面了解关键的绿色模块的详细信息。进行机器学习、主成分分析 (PCA) 和表达模式分析,包括基因和蛋白质的免疫组织化学和免疫荧光,以验证这些枢纽基因的可靠性。

结果:WGCNA 分析后,绿色模块与PMF疾病密切相关。绿色模块中的 20 个基因被确定为负责 PMF 进展的中枢基因。GO、KEGG显示这些hub基因主要富集于红细胞分化、转录因子结合、血红蛋白复合物、转录因子复合物和细胞周期等。其中EPB42、CALR、SLC4A1和MPL与PMF的相关性最大。机器学习、主成分分析 (PCA) 和表达模式分析证明了本研究的结果。

结论:EPB42、CALR、SLC4A1和MPL在PMF样品中显着高表达。这四个基因可以被认为是 PMF 早期的候选预后生物标志物和潜在的治疗靶点。无论是在早期诊断中还是作为治疗靶点,其效果都值得期待。


02

结果

1.质量控制和预处理

本研究应用微阵列数据集GSE26049,对正常样本和不同肿瘤样本(共90个)的基因表达谱进行归一化和生成。(1A ) 用于质量控制的 GSE26049 归一化非标度标准误差 (NUSE) 图。(1B ) RMA 背景校正和归一化后 GSE26049 中基因表达水平的箱线图。


图1

2.WGCNA网络的构建

应用层次聚类分析来检查每个样本的异质性,以检测和去除异常值(图 2A)。然后计算最优软阈值功率,如(图2B) 所示,通过 WGCNA 分析选择软阈值功率值,16 被选为最佳软阈值功率值。基于共表达关系,然后进行层次聚类分析以获得加权共表达网络(图3A)下面的每种颜色代表一个共表达模块,通过层次聚类树分析确定了总共 14 个不同的模块。( 图3B ) 基因共表达网络的拓扑重叠热图。

图2

图3

3.PMF关键模块识别

在获得 WGCNA 网络数据后,然后进行模块-特征关系热图。充分评估了每个模块与每个不同特征(包括控制、PV、ET 和 PMF 亚组)之间的交互关系(图 4A、4B)。基于树状图,结果表明 PMF与绿色模块聚类,这意味着这两个特征值彼此具有高度相关性(图 5A)。至于热图,每个模块都向另一个模块展示了它们的独立验证。结果证实 PMF 亚组与绿色模块具有高度相关性(图 5B)。如图5C我们根据四个亚组之间绿色模块中的基因表达值进行层次聚类分析:对照、PV、ET 和 PMF。

图4

图5

4. 功能和通路富集分析

GO、KEGG的详细结果见图6. GO结果表明,这些基因主要与红细胞分化、造血、RNA聚合酶II启动子转录的正调控和细胞凋亡过程的负调控等多种BP相关;与胞质溶胶、血红蛋白复合物、转录因子复合物等CCs相关;KEGG 分析显示一些信号通路发生了显着改变,如细胞周期、内质网中的蛋白质加工、胆汁分泌和卟啉代谢。

图7A - 7F, GSEA 结果表明,绿色模块中的基因通常在与肿瘤发生相关的关键信号通路中进化,包括细胞周期、造血细胞谱系、JAK-STAT 信号通路、卵母细胞减数分裂、P53 信号通路和 toll-like受体信号通路等。

图6

图7

5.通过PPI构建鉴定枢纽基因

Cytoscape中的MCODE插件识别绿色模块中的相关子模块,前2个显著子模块,如图8A所示。模块 1 包含 10 个基因和 55 条边,模块 2 包含 7 个基因和 30 条边。随后,这个加权网络中的枢纽基因被过滤,度数≥36,度数表示两个基因之间的相关程度。总共确定了 20 个基因为枢纽基因,包括 EPB42、SLC4A1、CALR、MPL、FECH、GYPB、KLF1、DMTN、RBX1、HBD、GYPA、GLRX5、UBE2H、KAT2B、RHAG、SELENBP1、CDC34、TAL1、和 SNDDCAL 。测试了PMF和正常样本之间hub基因的基因表达水平,如图8B所示. 阐明这些中枢基因在 PMF 样本中的表达水平比正常样本高得多,表明这些基因负责 PMF 的发展。在这些基因中,EPB42、CALR、SLC4A1和MPL基因的节点度最高,表明EPB42、CALR、SLC4A1和MPL与其他蛋白的联系最多,表明它们在PMF的发病和肿瘤发生中起关键作用。因此,这四个基因被认为是PMF的枢纽基因。

图8

6.验证枢纽基因的表达模式和蛋白质表达

在EPB42、CALR、SLC4A1和MPL最终被确定为PMF的枢纽基因后,我们建立了机器学习模型来确认这些基因的可靠性,学习方法包括弹性网络回归、岭回归、逻辑回归、随机森林、K最近邻,和支持向量机模型。每个机器模型在图 9A 中都显示出高精度。选择最合适的预测模型 SVM(支持向量机)作为合适的模型并应用于第三方数据集中的测试集,结果如图 9B所示,GSE53482 和 GSE61629 的AUC分别为 0.922 和 0.875。随后进行主成分分析(PCA)以降低这些枢纽基因的维度,以便我们可以观察数据的空间分布和聚类特性。降维后得到三个主成分PC1、PC2和PC3,结果表明hub基因的这三个成分可以在三维立方体中清晰地区分正常样本和PMF样本,分别来自GSE26049、GSE61629、GSE53482(图9C – 9E)。进一步分析了这四个hub基因在不同GEO数据集中的表达值,我们从GSE53482和GSE61629数据集验证了EPB42、CALR、SLC4A1和MPL在正常和PMF患者中的表达(图9F、9G),结果阐明了在 GSE53482 和 GSE61629 系列的 PMF 患者中,hub 基因均显着过表达(P < 0.05)。为了进一步验证这些枢纽基因的表达,我们收集了我们机构的健康供体和 PMF 患者的外周血,并进行了 qRT-PCR 分析。结果显示在图 9H 中,表明这些中枢基因中正常和 PMF 患者之间存在显着差异(P < 0.05)。


图9



03

总结

本研究试图基于 WGCNA 分析探索 PMF 的潜在分子调控机制。从 GEO 数据集 GSE26049 中识别出 14 个不同的共表达模块。其中,绿色模块与PMF的相关性最显著。绿色模块中的 EPB42、CALR、SLC4A1 和 MPL 被认为是 PMF 的关键治疗靶点



长按识别二维码,添加我们









【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.5k
粉丝0
内容580