
数据是死的,人是活的,如何从死板的数据中充分挖掘我们所需要的信息,如何选择合适的方法来分析,一直是生信分析的一大难点。但是不要担心不要害怕,因为你们拥有小记者这样的军师,为你们排忧解难。今天小记者就给你们带来了一篇关于生信算法的优秀文章,围绕了如何处理两大热门且棘手的数据类型而展开,干货满满,且听我慢慢道来。首先,作者针对生信分析的两大难点,单细胞RNA和ATAC数据的分析,选择了三种不同类型的数据集和多种算法。其次,为提高文章的可靠度,选用了12种算法从多个角度进行评估比较,选最适合每个数据集的整合分析方法。这样全面的算法分析文章是不是没有见过!全方位无死角评估得出最佳算法,拿下高分期刊不是梦!并且这个思路也很容易复现噢,换不同的数据集就可以复现,YYDS!(ps:没有文章思路或者看不懂算法的宝宝可以来找小记者!这里有一茬接一茬的创新型思路…感兴趣的赶快加微信联系我噢!)

后台回复“999”获取原文献,文献编号240531
题目:单细胞 RNA 和 ATAC 数据的多组学整合算法基准测试
在过去的几年里,单细胞测序技术已经出现,在各种模式下产生了大量的微生物数据。单细胞RNA-seq(scRNA-seq)和单细胞ATAC-seq(scATAC-seq)数据是两种主要模式,从不同角度提供了许多关于基因表达调控的信息。因此,对这些单细胞RNA和ATAC数据进行联合分析是非常必要的,整合分析能够帮我们获得关于细胞内基因调控更加全面的信息。目前有许多整合细胞RNA和ATAC数据的方法被开发并应用,但是对不同方法的适用条件以及如何选择的研究尚少。因此,本文评估了不同整合分析方法的适用数据类型以及情况,为研究者提供一定的参考依据。
作者从前人文章以及MCBI GEO中获取了非配对数据集、无轨迹的配对数据集以及带有轨迹的配对数据集三个数据集。利用scDART, UnionCom, MMD-MA, scJoint, Harmony, Seurat, LIGER和GLUE方法对于未配对数据集进行评估,利用scMVP,Cobolt,MOFA+和MultiVI对于配对数据集进行评估。最后,作者发现不同的方法对于同一数据在不同方面都各有优势。因此,作者提供了为特定场景和任务选择适当方法的指南,以帮助研究者从多组数据集中获得取更多的有意义的信息。
网络基准测试了以下三个类别中的 12 种流行方法: 两种设计用于有线数据集的流行整合方法,两种属于有线指导整合类别的流行方法和八种既可用于配对数据集又可用于非配对数据集的积分方法(表 1)。作者在三个数据集上对这些方法进行了测试,以评估它们在不同的单细胞核糖核酸和ATAC 数据整合任务中的性能。这三个数据集各有自己的特点,但又可满足不同的整合应用场景的需要。
首先,作者重点介绍了八种方法如何适用于不配对在未配对数据集上执行的任务。在每个组学中可以清楚地划分出内皮细胞、成纤维细胞、巨噬细胞和平滑肌细胞四种细胞类型。从组学类型和细胞类型中UMAP的着色可见,MMD-MA、scJoint、LIGER和GLUE实现了一定程度的整合,其中GLUE效果最好。在scRNA-seq中,MMD-MA可以很好地聚集细胞scATAC-seq相对较差(图2)。另外,作者发现GLUE在所有指标和指标中得分最高特别是在NMI的得分上,体现出了它在整合非配对数据集方面的优势。同时,MMD-MA、LIGER和Seurat在组学混合方面得分相对较好,UnionCom、scJoint和scDART在细胞类型保护方面效果较好(图3)。
接下来,作者评估了上述三种方法对配对数据集的处理效果。在scRNA-seq中,这19种细胞类型可以相互分离,但在scATAC-seq中不明显。在按细胞类型着色的UMAP可视化中,可见scMVP、Seurat、MOFA+、MultiVI和GLUE在中获得了最好的聚类效果(图4)。scJoint和LIGER在scRNA-seq中仅具有一定的聚集效应,而MMD-MA在两个组学中聚集的细胞类型不一致。我们进一步计算了整合精度指标来评估每种方法的效果(图5)。在所有方法中,GLUE在大多数方面明显优于其他方法尤其是在细胞类型守恒和精度方面,其次是MultiVI。除GLUE和MultiVI外,其余方法对NOS的评价均较差。
作者评估了不同方法在配对数据集与轨迹集中的效果。在IP-Hmg2、IP-Gadd45g、IP-Eomes、Ex23-Cntn和Ex23-Cux1中存在预期的线性轨迹,并绘制了带有轨迹的UMAP可视化图(图6)。作者取每种细胞类型的细胞质心,并使用最小生成树(MST)获得这些点上的轨迹。其发现大多数方法都有良好的性能,而MMD-MA、scJoint、scMVP和Harmony没有保持线性轨迹,表明它们的作用相对较差。
这篇文章主要是探讨了针对不同数据库类型选用何种的整合分析方法,在分析方法上有比较高的创新性,是算法分析类文章的典范。作者选择了针对不同类型的单细胞RNA和ATAC数据集,选择了12种不同的分析方法以及多种评估指标来明确不同数据集所对应的最合适的分析方法,为研究者们后续数据处理提供了依据,发到9+绝对名副其实,这样的研究思路也是很好复现的,感兴趣的朋友,赶紧行动起来吧!
如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和期刊推荐有所需要的话,“生信日报”非常乐意为您提供如下服务:免费思路评估、付费生信分析和方案设计以及付费选刊等,有意向的小伙伴欢迎咨询小记者哦!