上传者: 38645434
|
上传时间: 2021-10-29 10:10:10
|
文件大小: 73KB
|
文件类型: -
k-means聚类算法
k-means是发现给定数据集的k个簇的算法,也就是将数据集聚合为k类的算法。
算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,我们一般取欧几里得距离
3)重新计算已经得到的各个类的质心
4)迭代步骤(2)、(3)直至新的质心与原质心相等或迭代次数大于指定阈值,算法结束
算法实现
随机初始化k个质心,用dict保存质心的值以及被聚类到该簇中的所有data。
def initCent(dataSet , k):
N = shape(dataSet)[1]
cents = {}
ran