k-means 聚类算法思想先随机选择k个聚类中心,把集合里的元素与最近的聚类中心聚为一类,得到一次聚类,再把每一个类的均值作为新的聚类中心重新聚类,迭代n次得到最终结果分步解析 一、初始化聚类中心 首先随机选择集合里的一个元素作为第一个聚类中心放入容器,选择距离第一个聚类中心最远的一个元素作为第二个聚类中心放入容器,第三、四、、、N个同理,为了优化可以选择距离开方做为评判标准 二、迭代聚类 依次把集合里的元素与距离最近的聚类中心分为一类,放到对应该聚类中心的新的容器,一次聚类完成后求出新容器里个类的均值,对该类对应的聚类中心进行更新,再次进行聚类操作,迭代n次得到理想的结果 三、可视化展
2021-12-04 22:03:46 41KB k-means mean ns
1
数字半色调是在二值设备或多色二值设备上实现图像再现的一门技术,提出将K-means聚类法应用在 数字半色调技术中。算法中应用人类视觉系统模型(HVS)和印刷模型最大限度减少原始灰度连续调图像和半 色调图像之间的视觉误差;利用K-means聚类法将灰度图像划分成聚类分区,在每个聚类分区应用最小平方法 (least-squares)最小化二值半色调图像和原始灰度级图像之间的平方误差,所构造的半色调算法与基于模型的最小平方法(LSMB)算法相比,随着聚类分区的增加,图像平滑且边缘清晰度增加,尤其是在图像细节部位。与 LSMB算法比较,该算法的均方误差值有所降低,而权重信噪比和峰值信噪比提高了0.2~2dB,模拟实验结果 验证了算法的有效性。
1
聚类 鸢尾花数据的 K-means 聚类和葡萄酒数据的 K-Medoids 聚类
2021-11-26 11:02:24 4KB Python
1
k-means 聚类算法,经典c++算法,中文注释
2021-11-25 15:40:28 5KB 移动开发
1
基于 K-means 聚类算法的图像区域分割,首先从数据样本种选取K个点作为初始聚类中心,其次计算各个样本到聚类的距离,把样本归到离它最近的那个聚类中心所在的累,计算新形成的每个聚类的数据对象的平均值来得到新的聚类中心,最后重复以上步骤,直到相邻两次的聚类中心没有任何变化,说明样本调增结束,仿真代码亲测可用,有很高的参考价值
1
本地开发和运营 依存关系 确保您已将Python 2.7和pip一起安装。 然后运行: pip install -r requirements.txt 正在运行的工作 使用中央作业运行程序模块src/index.py运行所有作业。 您完全不需要编辑此文件。 python src/index.py 参数: src/spark_jobs.py定义的作业功能名称 生成的簇数 数据文件的文件路径(可以是项目中的绝对路径或本地路径) 这些作业可以占用多个文件。 这些应仅附加到命令中。 例如: python src/index.py user__reputation__to__upvotes_cast 3 tests/fixtures/users.xml 新增工作 所有作业均从src/s
2021-11-22 02:29:49 3.4MB python spark clustering pyspark
1
k-means聚类算法的研究.pdf
2021-11-19 13:01:47 132KB
算法优缺点: 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。 1.首先我们需要选择一个k值,也就是我们希望把数据分成多少类,这里k值的选择对结果的影响很大,Ng的课说的选择方法有两种一种是elbow method,简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好。另一种则是根据具体的需求确定,比如说进行衬衫尺寸的聚类你可能就会考虑分成三类(L,M,S)等 2.然后我们需要选择最初的聚类点(或者叫质心),这里的
2021-11-19 12:27:21 250KB k-means k-means算法 k均值聚类算法
1
针对传统K-means算法易受初始聚类中心和异常数据的影响等缺陷,利用萤火虫优化算法全局搜索能力强、收敛速度快的优势,对K-means算法的初始聚类中心进行优化,并通过引用一种加权的欧氏距离,减少异常数据等不确定因素带来的不良影响,提出了一种基于萤火虫优化的加权K-means算法。该算法在提升聚类性能的同时,有效增强了算法的收敛速度。在实验阶段,通过UCI数据集中的几组数据对该算法进行了聚类实验及有效性测试,实验结果充分表明了该算法的有效性及优越性。
2021-11-15 15:38:43 1.72MB 加权K-means 聚类 萤火虫算法
1