大数跨境

纯生信1个月发文,多种高通量分析技术,双疾病基因研究赶紧学起来!

纯生信1个月发文,多种高通量分析技术,双疾病基因研究赶紧学起来! 生信日报
2024-05-10
4

小记者又发现一篇突出的文献,迫不及待要给大家分享!这篇文章从接收到发布仅用了1个月时间,最后获15分。震惊!!!依我看来,这篇文章的确有不少闪光点,让我一一道来。
(1)在选题方面,非酒精性脂肪肝病(NAFLD)和阿尔茨海默病(AD)一直是热门研究疾病,基于研究发现这两种疾病存在关联性。对两者疾病关联的具体分子和机制进行研究,正是作者选题突出的地方。
(2)在研究方法方面,本文研究提供了一种新颖的方法论视角。通过综合运用差异表达基因分析(DEGs)、加权基因共表达网络分析(WGCNA)、机器学习技术、基因集富集分析(GSEA)及CIBERSORT算法,研究成功地识别出NAFLDAD之间的共有生物标志物,揭示了它们在病理进程中的共同作用机制。多种高通量数据分析技术有机结合,为两种看似不相关的疾病提供了一个共同的分子联系框架,展示了生物信息学在现代医学研究中的关键作用。
话不多说,小记者立刻给大家解读这篇文献,懂事的人已经拿起小本本速度切换学习模式了。(ps特征筛选+建模,实现0实验发文,想要复现思路的小伙伴记得call小记者哟,保你发文不迷路)


过机器学习算法识别非酒精性脂肪肝和阿尔茨海默病的诊断基因特征和分子机制
期刊:ElsevierScience
影响因子:IF=5.0
发表时间:20243
后台回复“999”获取原文献,文献编号240509
研究背景
非酒精性脂肪性肝病(NAFLD)和阿尔茨海默病(AD)是当前世界范围内健康问题的两个重点。研究发现,这两种疾病在发病机制上存在一定的联系,但是具体的分子机制尚不清楚。针对这一问题,作用利用生物信息学的方法,寻求在分子水平上理解NAFLDAD的相互作用,以期为这两种疾病提供新的诊疗思路。
数据来源
数据集/队列
数据库
数据类型
详细信息
GSE89632GSE63067
GEO
基因表达数据
NAFLD的发现队列
GSE132903GSE1297
GEO
基因表达数据
AD的发现队列
GSE37031GSE5281
GEO
基因表达数据
NAFLDAD的外部验证队列
研究思路
本研究基于NAFLD以及AD的六个GEO数据集,使用"sva"R包的"ComBat"函数消除批效,后用"limma"包进行两组之间DEGs的识别,随后使用"FactoMineR""Factoextra"R包重建PCA图并进行可视化表示。为研究疾病与关键基因之间的潜在关系,作者进行WGCNA识别关键模块,并进行交叉分析。通过LASSORF两种算法,以及交叉分析获得两个共享的诊断基因,随后进行表达水平的检测。研究还采用了基因集富集分析(GSEA)和CIBERSORT算法来进一步探索与疾病相关的分子途径和免疫细胞分布。
1 基本流程
主要结果
1.批次效应去除以及差异表达基因(DEGs)的识别
基于GEO数据库,作者选择了GSE89632GSE63067作为NAFLD的发现队列,而GSE132903GSE1297作为AD的发现队列GSE37031GSE5281分别被用作NAFLDAD的验证队列。该数据批效应结果显示显著(图2AE),随后使用“sva”R包消除NAFLD(2B)AD(2F)的批效应,并应用“limma”R包识别两组之间的DEGs。结果显示NAFLD962DEGs(经校正P<0.05|log2FC|>0.5),其中上调432个,下调530个。
AD中,共442DEGs(经校正P<0.05|log2FC|>0.5),其中168个基因上调,274个基因下调。绘制NAFLD(2C)AD(2G)的所有DEGs火山图,使用热图显示各组的集体DEGs(2DH)
2 NAFLDAD批次效应去除以及差异表达基因(DEGs)的识别
2.通过WGCNA识别关键模块
在研究中,作者使用了加权基因共表达网络分析(WGCNA)这一工具分析两组之间差异,构建了共表达网络,将参数β设为5(3A)。并使用邻接函数生成邻接矩阵,以及使用TOM不相似性度量建立了分层聚类(3B)NAFLD组以P<0.05的模块为关键模版,共鉴定出16个共表达模块(图3C)。MEblackMEblueMEgrey60MEmagenta表现出很强的正相关,而MEgreenyellowMEyellow模块表现出很强的负相关,共包含5327个基因。AD组以β为9(图3D),检测出15个模块其中MEturquoise模块表现出最强的负相关性,包含2397个基因(3EF)。在两组中鉴定的关键模块内的基因可能作为潜在的候选细胞类型特异性标记。
3 NAFLDADWGCNA
3.机器学习分析
作者对DEGsWGCNA鉴定的基因进行了交叉分享,鉴定出14个共享基因(图4),分别为GADD45GNUPR1CRYMFOXC1TAGLNKCNK1SCG5BCL6TSPAN13MYOM1TPM2VCANRCAN2NPTX2。随后,作者使用最小绝对收缩和选择算子(LASSO)和随机森林(RF)算法鉴定了NAFLDAD的关键诊断性生物标志物。在NAFLD组中,LASSO算法确定了8个候选基因(5A)RF算法最终鉴定出7个基因。(5B),两种算法交集得六个共享生物标志物(GADD45GNUPR1CRYMTAGLNTSPAN13MYOM1)(5C)。在AD组中LASSO算法鉴定出6个特征基因(5D)RF算法确定7个基因(图5E),两种算法交集得四种常见基因生物标志物(GADD45GNUPR1BCL6NPTX2)(图5F)。
4 DEGsWGCNA的共享基因
5 应用机器学习算法鉴定NAFLDAD的潜在诊断基因
4.关键诊断生物标志物的诊断意义和验证
作者通过交叉分析获得两个共享的诊断基因:GADD45GNUPR1(图6A)。随后检测其在两组中的表达水平,结果显示GADD45GNAFLD组中表达较低,在AD组中表达较高(图6B)。NUPR1NAFLD组和AD组中表达较高(6B)。两个验证组中这些枢纽基因的表达模式与发现组相同(6C)ROC分析方面,NAFLD组中GADD45G(曲线下面积[AUC]=0.874)NUPR1(AUC=0.814)以及在AD组中GADD45G(AUC=0.735)NUPR1(AUC=0.757)均表现出可靠的预测性能(6D)GADD45GNAFLD(AUC=0.929)AD(AUC=0.690)的验证队列中具有良好的诊断价值(图6E)。同样,NUPR1可以有效诊断NAFLD(AUC=0.929)AD(AUC=0.688)(6E)。这些结果证实了GADD45GNUPR1可能分别是NAFLDAD的关键分子。
6 NAFLDAD关键诊断基因的选择和验证
5.NAFLDAD诊断图模型设计及疗效评估
基于两个关键基因GADD45GNUPR1构建了NAFLD的诊断nomogram模型(7A)训练集的AUC评分0.508(7B)。验证集AUC达到0.893(7B)。如图7C所示,训练集和验证集的校准曲线与标准曲线非常吻合,表明诺模图预测NAFLD的准确度很高。此外,DCA曲线和临床影响曲线(CIC(7DE)表明风险型在训练集和验证集中都具有稳健性。这些发现表明风险评分型具有良好的预测能力,两个关键的诊断生物标志物在北美自由贸易区的发展中起着关键作用。AD诊断nomogram模型(8A)方面,训练集ROC曲线AUC0.689(8B),验证集AUC0.733(8B),训练集和验证集都与标准曲线紧密贴合(8C)模图预测AD的准确度高DCACIC(8DE)强调了风险模型在训练集和验证集中的鲁棒性
7 建立诊断图模型并评价其对NAFLD的鉴别效果
8 建立诊断图模型并评价其对AD的鉴别效果
6.诊断基因的单基因GSEA分析
NAFLD中,GSEA强调了GADD45G的多种作用(9A),确定与炎症(TNFIL-17信号传导)、免疫反应相关的途径通路(疟疾)和细胞生长调节(河马途径)。代谢失调主要通过丁酸代谢肾素-血管紧张素系统维生素的消化和吸收等途径表现出来。此外,与牛磺酸和牛磺酸代谢相关。针对NAFLD中的NUPR1(9B),在基本的细胞过程中观察到富集,如核糖体碱基切除修复“DNA复制,以及参与关键的信号通路,包括JAK-STAT”“Hippo”和炎症通路(TNFIL-17信号)
AD中,GSEA显示GADD45G与多种途径显著相关(9C)括与致癌作用相关的途径(“基底细胞癌慢性髓性白血病”)神经变性(“Notch信号传导”“突触囊泡循环”)和免疫应答(“病毒蛋白与细胞因子和细胞因子受体的相互作用”),同时代谢途径氧化磷酸化牛磺酸牛磺酸代谢也有牵连。AD中的NUPR1(9D)展示了与糖胺聚糖生物合成、Notch信号传导、组氨酸代谢和Hippo通路相关的途径富集。同时,代谢途径包括氧化磷酸化牛磺酸和牛磺酸代谢等有相关性。
9 诊断基因的单基因GSEA分析
7.探索免疫细胞浸润及其与共享诊断基因的相关性
作者使用CIBERSORT评估NAFLSAD发现数据集中22种免疫细胞类型的比例(图10AD)。在 NAFLD (10A)中,观察到T细胞滤泡辅助细胞、静止自然杀伤(NK)细胞、巨噬细胞M2静息肥大细胞中观察到显著上调,而初始B细胞、NK细胞活化、单核细胞、巨噬细胞M0、树突状细胞活化、肥大细胞活化和中性粒细胞均显示上调。相反,AD样本(10D)表现T细胞CD4记忆静息、T调节性细胞 (Treg)T细胞γδ和巨噬细胞M1的上调以及滤泡辅助T细胞、树突状细胞的激活和肥大细胞休眠减少。进一步分析NAFLD样本中GADD45GNUPR1表达与免疫细胞比例之间的相关性,发现存在关联(图10BC)。GADD45G表达与中性粒细胞、肥大细胞活化和NK细胞活化呈正相关,而与浆细胞和肥大细胞静止负相关(10B)。相比之下,NUPR1的表达与巨噬细胞M2T细胞CD8呈正相关,与中性粒细胞、树突状细胞活化和初始B细胞负相关(10C)。然而,在AD样本中,诊断标记基因与免疫细胞比例之间的相关性没有统计学意义
文章小结
本研究运用了多种先进的生物信息学方法,包括差异表达基因分析(DEGs)、加权基因共表达网络分析(WGCNA)、机器学习算法、基因集富集分析(GSEA)以及CIBERSORT算法来探索非酒精性脂肪性肝病(NAFLD)和阿尔茨海默病(AD)之间的分子联系。其中,研究的亮点在于综合运用这些方法不仅识别了两种疾病的共享基因,还通过机器学习明确了具有高诊断潜力的生物标志物,并利用GSEACIBERSORT进一步解析了这些标志物在疾病相关途径和免疫细胞分布中的作用,这为理解这些疾病的共同病理基础提供了新见解,展示了多技术交叉融合在复杂疾病研究中的巨大潜力。小记者在线等诸位撩哦~奋力为大家在生信分析和方案设计等方面提供帮助。


小记者话生信

如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和期刊推荐有所需要的话,“生信日报”非常乐意为您提供如下服务:免费思路评估、付费生信分析和方案设计以及付费选刊等,有意向的小伙伴欢迎咨询小记者哦!

生信分析

思路设计

服务器租赁

扫码咨询小记者


1、超高分sci!将近50分你还有不看的理由?德国学者真是把机器学习玩出花了,直接构建一个新生信分析方法,还不快看!

2、国自然出品就是牛!复旦大学施思&虞先濬团队:借公共数据库+RNA-seq+湿实验研究癌症成纤维,IF近9分属实佩服!

3、MDPI期刊再爆丑闻!23本期刊存在“审稿人工厂”问题!

4、1区5分+药理学方向官方期刊,生信文章友好!发文量大,审稿速度快,还在犹豫什么赶快投起来!

5、中山二院宋尔卫苏士成实验室患癌事件后续,团队1周内接连发表Cell和Nature···




END


【声明】内容源于网络
0
0
生信日报
内容 283
粉丝 0
生信日报
总阅读828
粉丝0
内容283