小伙伴们好!上次我们提到了如何用sklearn库进行回归分析,要复习的朋友可以点击:
今天介绍下聚类分析,聚类分析是一种无监督的机器学习方法,用于将数据集中的样本划分为若干个不相交的子集(称为“簇”cluster),使得同一个簇内的样本尽可能相似,而不同簇间的样本尽可能不同。这种方法通常用于探索性数据分析,以发现数据中潜在的结构或模式。
sklearn库提供了多种聚类算法,如K-Means、层次聚类(Agglomerative Clustering)、DBSCAN等。接下来,我们以KMeans算法为例,进行聚类分析的简单示范:

第一步,如果你还没有安装的话,需要安装scikit-learn库。可视化绘图还需要matplotlib库。
pip install scikit-learnpip install matplotlib

