针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
1
具有成对约束的聚类最近在聚类社区中引起了很多关注。 特别地,数据集中给定实例对之间的必须链接约束和不能链接约束是当今许多聚类算法中所包​​含的常识。 事实证明,这种方法可以成功地指导许多著名的聚类算法获得更准确的结果。 但是,最近的工作还表明,必须链接约束和不能链接约束的合并使聚类算法对“实例的分配顺序”过于敏感,因此导致了随后的约束冲突。 本文的主要贡献有两个方面。 一种方法是在执行“无法链接”集合的“广度优先”搜索后,通过强调无法链接实例的有序分配来解决Cop-Kmeans中违反约束的问题。 另一个是通过采用MapReduce框架来降低大数据集的Cop-Kmeans计算复杂度。 实验结果表明,我们的方法在海量数据集上表现良好,同时可以克服约束冲突的问题。
2022-03-17 19:27:29 388KB Semi-supervised clustering; Pairwise constraints;
1
K-Means聚类算法在MapReduce框架下的实现.pdf
2021-08-20 01:23:11 207KB 聚类 算法 数据结构 参考文献
一次很好的mapreduce框架学习。复习了框架大部分组件,代码都是一个一个敲上去的,借鉴了视频中老师的讲解,只包含了7个代码中关键的java文件,其他包都需要自己导入。
2021-07-02 05:29:45 6KB hadoop
1
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
1