资料说明:包括数据+代码+文档+代码讲解。 1.项目背景 2.数据获取 3.数据预处理 4.探索性数据分析 5.特征工程 6.构建聚类模型 7.结论与展望
2022-02-15 14:05:18 49.95MB kmeans python 算法 机器学习
[IDX,C,SUMD,K] = best_kmeans(X) 划分 N×P 数据矩阵 X 中的点成 K 个簇。 X 的行对应点,列对应变量。 IDX 包含每个点的集群索引。 C 是 K×P 矩阵 C 中的 K 个簇质心位置。 SUMD 是 1×K 向量中点到质心距离的总和。 K 是使用 ELBOW 方法确定的聚类质心数。 ELBOW方法:计算从1到n,并且K是对应于90%百分比的簇数方差解释,这是组间方差与总方差。 见 找到最好的K个簇后,使用kmeans确定IDX,C,SUMD matlab中的函数。
2022-02-13 21:21:12 2KB matlab
1
kmeans算法的matlab实现,其中包含实验所需要的数据,在matlab2007b中可以运行。
2022-02-08 17:43:47 4KB kmeans matlab
1
【程序老媛出品,必属精品,亲测校正,质量保证】 资源名:matlab k-means算法 程序源码.zip 资源类型:程序源代码 源码说明: matlab实现 k-means算法 程序 包含完整代码 非常适合借鉴学习 适合人群:新手及有一定经验的开发人员
2022-02-05 14:09:41 2KB kmeans matlab matlab实现k-means 程序源码
带canopy预处理的kmeans算法 (1)将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2。  (2)从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到这个Canopy;  (3)如果点P曾经与某个Canopy的距离在T2以内,则需要把点P从list中删除,这一步是认为点P此时与这个Canopy已经够近了,因此它不可以再做其它Canopy的中心了;  (4)重复步骤2、3,直到list为空结束
2022-02-04 06:25:38 4.58MB 大数据
1
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
2022-01-31 21:44:11 566KB 论文研究
1
matlab均值聚类的基本代码,代码参考自周志华《机器学习》9.4.1节而写的,代码使用matlab矩阵序列化操作,速度会快一点,本代码仅供参考,请尊重原创
2022-01-29 22:27:12 958B kmeans 均值聚类
1
大数据聚类算法与处理与kmeans 算法综述
2022-01-29 09:04:47 1.53MB kmeans 算法 聚类 big
1
简单的实现了K_means算法的可视化,这里分析的主要是坐标信息,数据源是文本信息txt文件。数据源大家可以修改
2022-01-23 19:12:16 1KB kmeans算法
1
实验报告——Kmeans聚类方法.docx
2022-01-23 09:15:21 182KB kmeans 聚类 数据挖掘 机器学习
1