-
核心原理:主成分分析是一种经典的线性降维方法。其核心是通过正交变换,将原始可能相关的变量转换为一组线性不相关的变量,即主成分。这些主成分按照其所能解释的原始数据方差大小降序排列。第一主成分是方差最大的投影方向,第二主成分则是在与第一主成分正交的所有方向中方差最大的,以此类推。
-
算法特性:
-
典型应用:作为数据预处理的第一步,用于快速评估数据质量、检测批次效应、观察样本间最大的分离趋势,或作为其他非线性降维方法的输入前置步骤。
-
核心原理:t-SNE是一种非线性降维方法,专注于保留数据的局部结构。其核心是构建高维空间和低维空间中的概率分布。在高维空间,它计算点与点之间基于高斯分布的条件概率,以表示其相似性;在低维空间(通常是2D或3D),它使用t分布来度量点之间的相似性。随后,通过梯度下降算法最小化两个概率分布之间的KL散度,从而使在高维空间中邻近的点在低维嵌入中也彼此靠近。
-
算法特性:
-
典型应用:在单细胞测序等领域中,用于精细展示细胞亚群之间的局部关系与聚类结构,尤其适用于发现嵌在数据中的细微群体。
-
核心原理:UMAP建立在严格的拓扑数学框架之上。它假设数据均匀分布在某个高维流形上。算法首先构建一个高维加权图,其中图的连接代表数据点之间的局部邻域关系(基于最近邻)。然后,它在低维空间寻找一个具有最相似拓扑结构的图表示。其代价函数用于衡量高维图和低维图在拓扑结构上的差异,并通过梯度下降进行优化。
-
算法特性:
-
典型应用:已成为当前单细胞分析等领域的标准可视化工具,适用于需要同时观察数据宏观组织规律和微观集群细节的场景。
-
下表总结了三种方法的关键差异:
-
选择策略建议:
项目咨询
精选合集,欢迎收藏哟!

