主要介绍了详解Java实现的k-means聚类算法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
1
利用k_means聚类算法的MapReduce并行化实现,为学习hadoop的同学提供参考
2023-11-17 15:02:23 258KB kmeans mapreduce
1
1、任选 2、计算每个数据到 3、计算每个数据到 4、计算3中的新划分得到的每一类的中心位置 5、对于得到的中心点,计算每个数据,到
2023-10-14 21:48:00 397KB kmeans 聚类 算法
1
K-means聚类算法K-means聚类算法
2023-07-10 17:16:25 55.67MB kmeans 聚类 算法
1
k-means聚类算法及matlab代码安全聚类 SAFE(来自Ensemble的单细胞聚合聚类):单细胞RNA-seq数据的聚类集成 尽管最近已经开发出几种方法来使用单细胞RNA-seq(scRNA-Seq)数据对细胞类型进行聚类,但它们利用了数据的不同特征,并且在聚类数量和实际聚类分配方面均产生了不同的结果。 在这里,我们介绍了SAFE聚类,单细胞聚合(来自Ensemble)聚类,这是一种灵活,准确且可靠的聚类scRNA-Seq数据的方法。 SAFE聚类将多种聚类方法的结果作为输入,以构建一个共识解决方案。 SAFE聚类目前嵌入了四种最先进的方法,即SC3,CIDR,Seurat和t-SNE + k -means。 并使用三种基于超图的分区算法将这四种方法的解决方案整合在一起。 SAFE聚类由Yuchen Yang []和Yun Yun []维护。 新闻与更新 2020年9月7日 2.00版已发布 SAFEclustering中使用的Seuart版本已更新为版本3。Seuratv.2不再兼容 SAFE聚类仅接受计数数据。 其他格式,例如FPKM,CPM和RPKM不再兼容 2018年
2023-04-18 14:15:42 4.17MB 系统开源
1
Data-Mining-Project-2014- 这个存储库包含我的学术课程“数据挖掘”项目的文件。 该项目涉及使用 K-Means 聚类算法进行聚类。 该项目的主要目的是了解聚类并应用 K-Means 聚类算法对数据进行聚类。 数据包括主要赛事的各种网球比赛的结果。 首先,我们应用特征减少来减少数据的字段,然后应用 K-Means 算法。 程序运行的先决条件是: Hadoop 2.3.0 所有节点上的多节点集群设置 程序运行并相应地将数据集划分为 3 个集群:- 低获胜机会 中奖机会 高获胜机会
2023-04-02 20:44:04 55KB Java
1
k-means聚类算法及matlab代码贝叶斯非参数小方差渐近聚类 这是贝叶斯非参数小方差渐近聚类算法库:DP均值,动态均值,DP-vMF均值,DDP-vMF均值。 出于比较原因,该库还实现了k均值和球形k均值。 该库带有一个可执行文件,该可执行文件允许使用DP-vMF-means,DP-means,球形k-means和k-means进行批量聚类。 示出了算法的简单性。 有关使用DDP-vMF-means的示例,请参考,该文档依赖于此程序包的dpMMlowVar库使用DDP-vMF-means从Kinect RGB-D流执行实时方向分割。 如果您使用DP-vMF手段或DDP-vMF手段,请引用: Julian Straub, Trevor Campbell, Jonathan P. How, John W. Fisher III. "Small-Variance Nonparametric Clustering on the Hypersphere", In CVPR, 2015. 如果您使用动态均值,请引用: T. Campbell, M. Liu, B. Kulis, J. How
2023-02-27 22:55:23 2.59MB 系统开源
1
基于Hadoop的K-Means聚类算法优化与实现,陈萍,何健伟,本文针对传统K-Means聚类算法不适合海量大数据挖掘,并且对异常离群点数据非常敏感,结合Hadoop云计算平台以及MapReduce并行编程框架,��
2023-01-15 11:32:23 361KB K-Means算法;大数据;Hadoop;并行;
1
摘要:针对传统配电网区域规划方法无法满足实际需求,而基于传统聚类算法的配电网区域规划方法存在着初始聚类中心选取不合理和聚类个数不确定的问题。文中对传统K-mea
1
中科院仪器设备共享管理平台(以下简称为SAMP)系统有效解决了各科研单位间仪器设备管理封闭、共享困难和运行效率低的棘手问题.同时,可以及时了解各类仪器的使用情况、共享情况,为各级业务主管部门展开科学高效的管理工作提供良好的决策依据.当SAMP系统应用数据库中存储的数据量达到百万级时,对数据库中预约表和用户表(或仪器表)进行连接查询时,将导致数据表查询性能的下降,从而影响整个SAMP系统的性能.目前主流的解决方案是采用Hash取模算法对数据表进行水平切分,但预约表中的主键为自动递增的整数,并没有实际意义,所以优化效果不理想.由于预约的用户和被预约的仪器在地理区域上呈现一定的聚集性,因此本文提出了一种基于K-means聚类算法的分表策略,采用该策略能够将预约表的查询性能提升至少70%.
1