针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
1
基于weka的数据分类和聚类分析实验报告.doc
2024-06-07 09:58:20 754KB
1
案例数据集《多元统计分析-聚类分析-层次聚类》
2024-01-15 11:19:06 14KB 数据集 聚类
1
完成多种分类的实现,如模糊分类,聚类分析
2023-11-07 08:00:17 14.07MB 聚类
1
数据挖掘实战聚类分析的资源,包括城市消费因素的数据集和k-means,k-medoids,层次聚类,Som四种聚类分析算法的代码。
1
完整全套资源下载地址:https://download.csdn.net/download/qq_27595745/66030967 【完整课程列表】 完整版 南京邮电大学 机器学习课程教程PPT课件 1-1.机器学习简介-上课版part1(共31页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 1-2 机器学习简介-上课版part2(共55页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 2. 概念学习 分类(共27页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 3 决策树(共44页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 4-1 贝叶斯学习(共18页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 5. 神经网络(共42页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 6 支持向量机(共29页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 7. 基于实例的学习-k近邻(共17页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 8-1 模式选择和评估(共30页).pdf 完整版 南京邮电大学 机器学习课程教程PPT课件 8-2 模式选择和评估(共14页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 9. 计算学习理论(共26页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 10 聚类分析(共74页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 12 特征选择(共36页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 13 Sparse-SDM10(共133页).pdf 完整版 南京邮电大学 机器学习课程教程PPT课件 14 机器学习总结(共25页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 15 Overview of ensemble(共31页).ppt
k-means聚类分析MATLAB仿真代码
2023-10-15 14:27:04 3KB matlab kmeans 软件/插件
1
NTSYS是一个聚类分析的软件,可以用来分析RFLP,RAPD等电泳带型,也可用于微生物群落多样性的相似性分析
2023-05-01 16:42:35 1.76MB 生物分析
1
本文采用因子分析,聚类分析,判别分析等方法对半导体行业进行多元统计分析,并从企业财务指标对企业绩效进行评估。 KMO检验和Bartlett检验表明,半导体行业的财务数据非常适合因子分析。 通过因子分析和聚类分析,最终将71家半导体公司按照偿付能力,盈利能力,运营能力和成长能力分为四类,为投资者提供参考。
1
NTsys-pc2.01图解使用说明1数据的录入方法:1)利用Ntedit直接录入数据 0、1二元数据中的数据缺失记为2。其中列标可以写为样品编号(条带编号),在No.rows 栏中写入0、1数据总数,No.cols 栏中写入样品总数。文件另存为*.nts格式。 2)从excel表中直接读入数据 Excel表中输入数据格式如下图。A1必须为1,B1为0、1数据总数,C1为样品总数
2023-04-13 21:35:38 3.93MB 遗传距离 聚类分析 主成份分析
1