欢迎各位看官又来到【生信日报】的生信零代码小工具推荐栏目~ ~
现在机器学习算法已经广泛应用到咱们的生信分析中了,并且作为创新性的分析方法,对于常规生信文章的提分效果还是很不错的,当然随着生信的快速发展和内卷,机器学习会应用的越来越广泛(ps:就像之前的免疫浸润分析,虽然它是旧时王谢堂前燕,但现在也是飞入寻常百姓家了),所以说在自己的文章中加入一些机器学习分析还是相当有必要的~ ~
机器学习对于生信大神肯定不在话下,但对于非专业人员甚至是生信小白,想想就觉得很难,有点无从下手的感觉

不瞒朋友们说,小记者一开始也是这样,但咱会借助平台小工具呀!小记者猜关注我的小伙伴们应该也想知道,所以直接推荐给大家一个零代码生信分析神器——“云生信在线分析平台”,平台中包含几百个零代码分析小工具,从分析到作图应有尽有,只需上传数据,直接一键成图,超级适合生信小白使用哦。网址:http://www.biocloudservice.com/home.html,分析平台开源、注册登录后可免费使用。想知道怎么用的话跟着小记者往下看吧!
这次给小伙伴们分享一个随机森林筛选诊断标志物的工具,只需要输入表达矩阵文件(ps:不会制作数据也没关系,平台提供模板,照着做就可以了!如果还是觉得有难度,call下小记者,也可以帮制作输入数据哟~),一键运行即可得图,感兴趣的朋友快来尝试用一下吧!(ps:觉得有用的小伙伴麻烦点个关注哦,朋友们的支持是【生信日报】更新的最大动力!)
机器学习算法之随机森林(Random Forest,简称 RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。利用大型数据存储库来识别新的风险预测因子以及它们之间更复杂的相互作用来提高风险预测的性能。因此,利用随机森林算法进行分类预测和筛选诊断标志物,人们可以预测和精确诊断疾病,对患者进行个性化治疗。
该软件通过基于带有分组的基因表达数据,利用 RF 算法,通过集成学习的思想进行多棵树集成,每棵决策树都是一个分类器(现在针对的是分类问题),那么对于一个输入样本,N 棵树会有 N 个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,从而进行分类预测和筛选诊断标志物,即可知道在疾病进展中起重要作用的几个基因。
vStep 1 :首先打开云生信在线分析平台,并登录使用。搜索并点击“随机森林方法筛选诊断标志物”进入小工具页面:

vStep 2:进入小工具页面后,可以看到上传数据选项,点击进入后,提示上传文件名称与格式需与示例数据一致。回到工具页面可以根据左上角输入数据模板制作数据。


vStep 3:点击“输入数据模板”,进入以下页面,可以看到给出了1个数据模板,点击数据可以在线预览和下载。

(第一列是样本名称,第二列是分组,后面几列是基因对应的表达量,输入 txt 格式)

vStep 4:制作好数据后,在文件上传界面上传所有输入数据,点击上传文件。再返回到工具主页面点击“运行自有数据”即可跳转到结果展示页面。

vStep 5:随机森林筛选诊断标志物工具共得到2图1表,可以在结果展示页面看到简单结果说明,直接点击某个图进入预览页面,也可以直接下载使用。

v【forest.pdf】:该图表示决策树的数量对错误率的影响趋势。

v【forest_2.pdf】:该图表示基因的重要性排名。

v【output.txt】:该表格表示每个基因的重要性评分

该工具设置参数少,用户只需要输入基因表达数据,软件将自行进行集成学习,构建决策树,获得最佳种子数和基因重要性排名,同时绘制错误率的影响趋势图和筛选出疾病诊断标志物。简单好操作,又可以一键得2图的随机森林诊断标志物筛选小工具,你学会了吗?简直不要太适合新手朋友哦,感兴趣的小伙伴赶快来尝试一波吧!后面还有更多小工具推荐,敬请期待哦!