![]()
点击上方蓝色字关注
▲生信小白君▲
NO2. 机器学习|无监督学习

引言


K-means 聚类:基于中心点的迭代优化方法,计算每个点与各聚类中心的距离,并分配点到距离最近的聚类中心,直到收敛。
层次聚类:通过自底向上的合并或自顶向下的分裂方式进行聚类。
DBSCAN:基于密度的聚类方法,能够发现任意形状的聚类,适合处理噪声。

降维:降维是指将高维数据映射到低维空间的过程。降维通常用于数据可视化、数据压缩和去噪。常见的降维方法包括:
主成分分析(PCA):一种线性降维方法,通过将数据投影到最大方差方向,减少数据的维度。
t-SNE:一种非线性降维方法,能够保留高维数据中的局部结构,常用于可视化。
自编码器:基于神经网络的非线性降维方法,能够学习到数据的低维表示。

关联规则学习:关联规则学习用于发现数据中的关联模式或规则。常见的算法包括Apriori算法和Eclat算法。
Apriori算法:一种经典的关联规则学习算法,通过频繁项集挖掘发现数据中常见的项之间的关系。
Eclat算法:另一种高效的关联规则挖掘算法,主要用于发现频繁项集。


缺乏标签:没有明确的目标输出,模型训练过程没有直接的监督信息,往往导致较为复杂的优化过程。
评估困难:与有监督学习不同,无监督学习的效果很难通过传统的准确度等指标来评估。
聚类数目选择:如K-means算法需要提前设定聚类数目(K),但实际应用中很难确定最优的K值。
可解释性问题:许多无监督学习方法(如深度学习的自编码器)可能缺乏良好的可解释性,使得最终模型的结果难以理解和信任。


