基于Hadoop的K-Means聚类算法优化与实现,陈萍,何健伟,本文针对传统K-Means聚类算法不适合海量大数据挖掘,并且对异常离群点数据非常敏感,结合Hadoop云计算平台以及MapReduce并行编程框架,��
2023-01-15 11:32:23 361KB K-Means算法;大数据;Hadoop;并行;
1
kmeans 分析matlab代码K均值聚类 这是K-means算法在MATLAB和Python中的简单实现 K-means 聚类是一种矢量量化方法,最初来自信号处理,在数据挖掘中流行用于聚类分析。 k-means聚类旨在将n个观测值划分为k个簇,其中每个观测值都属于具有最近均值的簇,作为簇的原型。 这导致将数据空间划分为 Voronoi 单元。 该代码实现了 K-means 算法并在一个简单的 2D 数据集上对其进行了测试。 例子 在这个例子中,我们首先从三个正态分布生成一个点数据集并标记数据集。 这个带有正确标签的数据集是我们的真实值。 然后我们重新调整标签并为新数据集运行 k-means 算法。 该算法正确地对数据集进行聚类,并估计聚类的中心。 在最后一步,我们将我们的结果与 Mathworks 实现的 k-means 的结果进行比较。 结果 我在我的机器上得到的结果如下: iteration: 1, error: 1.8122, mu1: [-0.2165 4.0360], mu2: [4.2571 0.0152], mu3: [-1.1291 -3.0925] iterati
2023-01-12 08:52:42 86KB 系统开源
1
数学建模有关的算法代码,MATLAB的基本实现,智能算法k-means,聚类算法的代码实例,通过了解基本原理知道分类方法,通过随机生成数据来模拟,实现基本的聚类情况,可在原有代码基础上改进。
2023-01-05 00:57:27 2KB 机器学习 数学建模 分类 MATLAB
1
Approximation Algorithms for K-Modes Clustering,何增友,,In this paper, we study clustering with respect to the k-modes objective function, a natural formulation of clustering for categorical data. One of the main contributions of this p
2022-12-28 15:33:15 223KB Clustering Categorical Data K-Means
1
印度尼西亚降雨模式分类使用时间序列K均值 使用时间序列k均值对印度尼西亚的三种主要降雨模式进行聚类。 k均值中的距离计算是动态时间规整(DTW),通常用于模式匹配和时间/顺序数据聚类。
2022-12-23 21:13:12 2KB
1
摘要:针对传统配电网区域规划方法无法满足实际需求,而基于传统聚类算法的配电网区域规划方法存在着初始聚类中心选取不合理和聚类个数不确定的问题。文中对传统K-mea
1
中科院仪器设备共享管理平台(以下简称为SAMP)系统有效解决了各科研单位间仪器设备管理封闭、共享困难和运行效率低的棘手问题.同时,可以及时了解各类仪器的使用情况、共享情况,为各级业务主管部门展开科学高效的管理工作提供良好的决策依据.当SAMP系统应用数据库中存储的数据量达到百万级时,对数据库中预约表和用户表(或仪器表)进行连接查询时,将导致数据表查询性能的下降,从而影响整个SAMP系统的性能.目前主流的解决方案是采用Hash取模算法对数据表进行水平切分,但预约表中的主键为自动递增的整数,并没有实际意义,所以优化效果不理想.由于预约的用户和被预约的仪器在地理区域上呈现一定的聚集性,因此本文提出了一种基于K-means聚类算法的分表策略,采用该策略能够将预约表的查询性能提升至少70%.
1
主要用的numpy库实现的,其中数据点的生成可以看我另外一个作业模式识别作业:....聚类设计那个用来生成数据
2022-12-14 18:15:59 34KB python k_means C均值 聚类
1
python实现机器学习K-means聚类算法.zip对数据进行聚类并绘图。原理 ​ K-means算法属于八大经典的机器学习算法中的其中一种,是一种无监督的聚类算法。其中无监督是机器学习领域中一个专业名词,和有监督是相对的,两者最本质的区别就在于研究的样本是否包含标签。比如猫狗分类这个问题中,猫和狗就是标签。对于聚类,其实是和分类相对应的,其中分类就是之有标签的。而聚类则是只没有标签的,我们需要将这些无标签的数据,按照各自的属性将他们会聚成不同的类别,从而将他们区分开。 ​ 在k-means算法中,存在着质心和簇。在进行算法之前,我们需要人工的指定将数据分为K个簇,并随便选取K个质心。就拿认知实习学习中的例子举例,假如我们又8个数据,分别为a1-a8,我们需要将这八个数据分为三个簇,也就是说k=3。这是我们就需要在a1-a8中随机选取三个数据点作为质心我们将质心记为b11,b12,b13。确定了质心后,我们需要计算a1-a8和三个质心的距离,并将距离最短的归为一类。比如a5到b11距离为2,到b12距离为3,到b13距离为1,那么就将a5和质心b13归为同一个簇。如此一次计算8个数
欢迎。 该存储库包含基于Matlab的“ GBK-means聚类算法的实现:基于讨价还价博弈的K-means算法的改进”。 在该存储库中,提供了GBK-means聚类算法的源代码,并将其与两种众所周知的聚类算法K-means和Fuzzy cmeans进行比较。 关于通用有效性指标,已经对人工和现实世界的数据集进行了比较。 提出的方法是一种新的机制,用于解决集群中心相互竞争以吸引最多数量的相似对象或实体进入其集群的集群分析问题。
2022-12-11 16:43:24 16KB matlab
1