大数跨境

随机森林+人工神经网络,机器学习算法助您发5+

随机森林+人工神经网络,机器学习算法助您发5+ 中科生信
2022-09-29
2
导读:摘要Abstract早上好,今天小编分享一篇2022年6月发表在Frontiers in Aging Neu

摘要

Abstract

早上好,今天小编分享一篇2022年6月发表在Frontiers in Aging Neuroscienc(IF=5.702)的文章,作者利用机器学习算法识别阿尔兹海默症中的生物标志物。

背景&方法


背景:阿尔茨海默病(AD)是一种神经退行性疾病,随着时间的推移会导致认知能力下降。由于现有的AD诊断方法是有限的,因此有必要在先前建立的基于遗传生物标志物的诊断模型的基础上进行改进。

方法:

1、合并GSE5281和GSE44771作为训练接并进行差异分析;

2、差异基因进行GO和KEGG富集分析;

3、随机森林筛选特征基因;

4、构建人工神经网络模型;

5、在GSE109887和GSE132903对模型进行验证;

结果


识别差异基因

本研究用到的四个数据集的详细信息如表1所示。合并GSE5281和GSE44771作为训练集。GSE109887和GSE132903作为验证集。在训练集中以logFC>1和adj.p<0.05作为阈值筛选差异基因,如图2A所示。热图展示了这些基因的表达趋势(图2B)。


GO和KEGG富集分析

接下来作者对差异基因进行GO和KEGG富集分析。BP结果主要富集到细胞对锌离子的反应。MF主要富集到锌离子跨膜转运蛋白活性。CC主要富集到网格蛋白雕刻的单胺转运囊泡。KEGG、WikiPathway和Reactome结果主要富集到苯丙氨酸、酪氨酸和色氨酸生物合成、锌稳态和金属离子互作响应等通路(图3)。


随机森林筛选关键基因

将120个差异基因放入RF分类中。依据RF分枝数和模型误差的相关性图(图4A),作者选取了190个树作为最终模型的参数,确定了6个最显著的基因作为候选基因。由图4B可知,KLF15是最显著的基因,其次为MAFF、ITPKB、SST、DDIT4、NRXN3。图4C显示,在来自训练集的120个DEG中,6个基因能够识别AD样本。MAFF、DDIT4、KLF15和ITPKB基因是一组在正常样本中低表达、在AD样本中高表达的基因。另一方面,SST和NRXN3正常样本中,它们的表达水平较高,但在AD样本中,它们的表达水平较低。


人工神经网络模型的构建

基于基因表达矩阵及样本分组构建神经网络模型。神经网络设置了6个输入层,5个隐藏层和2个输出层。5倍交叉验证的结果用ROC曲线表示(图5),准确率如表2所示。5次结果的平均AUC超过0.90,证明了模型的可靠性。最后,根据上述信息构建AD和对照样本的ANN模型(图6),该模型的总体AUC为0.953,准确率为0.914(图7A)。


人工神经网络模型的验证

在GSE109887和GSE132903中的AUC分别为0.854和0.810,表明该神经网络对AD的诊断预测的稳定性(图7)。

扫描二维码 联系我们

中科生信


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.1k
粉丝0
内容580