针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
2022-01-31 21:44:11 566KB 论文研究
1
matlab均值聚类的基本代码,代码参考自周志华《机器学习》9.4.1节而写的,代码使用matlab矩阵序列化操作,速度会快一点,本代码仅供参考,请尊重原创
2022-01-29 22:27:12 958B kmeans 均值聚类
1
大数据聚类算法与处理与kmeans 算法综述
2022-01-29 09:04:47 1.53MB kmeans 算法 聚类 big
1
简单的实现了K_means算法的可视化,这里分析的主要是坐标信息,数据源是文本信息txt文件。数据源大家可以修改
2022-01-23 19:12:16 1KB kmeans算法
1
实验报告——Kmeans聚类方法.docx
2022-01-23 09:15:21 182KB kmeans 聚类 数据挖掘 机器学习
1
共3个ipynb文件,包括对于数据预处理并可视化、kmeans聚类分析客户类型、用网格搜索随机森林的最佳参数并保证AUC大于0.75.
2022-01-22 19:02:18 144KB kmeans 数据分析 随机森林 算法
1
使用matlab语言,在cifar-10数据集上完成了k-means方法的聚类任务,但是效果不是很好,由于使用的是matlab自身所带的函数,可能运行效果与此有关系。先暂定存档,日后想到好的方法再进行改进。
2022-01-19 20:19:08 320.78MB kmeans cifar-10-matlab
1
K-means聚类,手撕代码、包括数据生成、模型展示,可直接运行
2022-01-18 12:05:34 97KB kmeans算法 机器学习
更多描述https://pixelsciences.blogspot.com/2017/08/genetics-algorithm-centroid-selection-kmeans.html
2022-01-17 13:45:50 2KB matlab
1
Kmeans聚类算法-手肘法,jupyter notebook 编写,打开可以直接运行,使用iris等5个数据集,机器学习。
2022-01-17 09:16:11 212KB 机器学习 kmeans 聚类算法