上传者: 38674124
|
上传时间: 2021-10-23 10:22:29
|
文件大小: 438KB
|
文件类型: -
聚类概念
聚类是把相似的东西分到一组,它是一个无监督问题,没有标签使用
难点:
对于有标签的有监督学习问题,标签可以便于我们来评估模型,无监督学习问题在评估上比较难一点
对于不同的参数组合,得到的学习结果,因为比较难对模型做评估,所以不能通过一个精确度的好坏来选择参数组合
K-MEANS算法
K-MEANS算法是聚类问题中,最简单,也是最实用的一个算法
基本概念
一个数据放进来,需要指定K值,来声明要得到簇的个数
质心:一个簇的数据均值,即向量各维取平均即可(迭代时使用)
距离的度量:常用欧几里得距离和余弦相似度(数据需先标准化)
优化目标
通过目标函数进行不断地优化、求解
min∑i=1K∑