KMeans算法和Elbow准则
“ k-Means聚类背后的想法是获取一堆数据并确定数据中是否存在任何自然聚类(相关对象的组)。
k-Means算法是所谓的无监督学习算法。 我们事先不知道数据中存在什么模式-它没有形式分类-但我们想知道是否可以将数据以某种方式分为几类。
例如,您可以使用k-Means通过告诉像素根据其颜色值将像素分组为3个群集来查找图像中3种最突出的颜色。 或者,您可以使用它将相关新闻文章分组在一起,而无需事先确定要使用的类别。 该算法将自动找出最佳组。
k均值中的“ k”是一个数字。 该算法假定数据中存在k个中心,各个数据元素分散在周围。 最接近这些所谓质心的数据将被分类或分组在一起。
k-Means不会告诉您每个特定数据组的分类器是什么。 将新闻文章分成几组后,并不能说第一组是关于科学的,第二组是关于名人的,第三组是关于即将举行的选举的,等等。您只知道相关的新闻故事现在在一起了,但不一定是什么这种关系意味着。 k均值仅有助于寻找潜在的集群。”
-取自对算法的移植。
存储库包含:
将的模型拟合到。
使用“肘标准”为K-means算法确定最佳聚类数的
1