Data-Mining-Project-2014- 这个存储库包含我的学术课程“数据挖掘”项目的文件。 该项目涉及使用 K-Means 聚类算法进行聚类。 该项目的主要目的是了解聚类并应用 K-Means 聚类算法对数据进行聚类。 数据包括主要赛事的各种网球比赛的结果。 首先,我们应用特征减少来减少数据的字段,然后应用 K-Means 算法。 程序运行的先决条件是: Hadoop 2.3.0 所有节点上的多节点集群设置 程序运行并相应地将数据集划分为 3 个集群:- 低获胜机会 中奖机会 高获胜机会
2023-04-02 20:44:04 55KB Java
1
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别“微话题”内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。
2023-04-01 22:52:14 306KB k-means算法
1
K—means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用.由于该终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。这里提出了一种K—means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点.该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果.
2023-03-20 09:05:29 833KB
1
针对心肌梗死(myocardial infarction,MI)12导联高频心电信号(high frequency electrocardiogram,HF-ECG)全局特征聚类问题,提出了一种计算机自动聚类算法。收集MIT-BIH标准心电数据库中的健康心电信号、早期心肌梗死心电信号、急性期心肌梗死心电信号、近期心肌梗死心电信号进行处理。应用二维主分量判别法(two dimensional principal component analysis,2D-PCA)对12导联HF-ECG进行融合特征提取,并应用基于均方差属性加权的遗传模拟退火K-means改进聚类算法。与常规K-means聚类算法相比,特征值更加简单直观,所提算法平均分类精度有较大提高,能对12导联HF-ECG进行更有效的聚类。
1
信用评估是商业银行等机构防范风险的重要途径,为了提高信用评估的准确率,使用随机森林(RF)来建立风险评估模型。针对随机森林模型的性能与参数的选择和数据集不平衡比例密切相关,提出了一种基于随机森林的组合分类算法(KM-GA-RF)。以UCI数据库中的German数据集进行研究,通过K-means算法对标签进行类分解。而对于哪个类分成的簇数(ki)以及随机森林算法自身的参数:树数(n_estimators)、特征数(max_features),使用改进的遗传算法对其进行优化选取。实验结果表明,基于随机森林的组合优化模型与传统RF以及其他算法进行比较,RF的预测精度高于支持向量机等算法,达到0.765,而提出的组合优化模型的预测精度为0.815,提高了5%。
1
k-means聚类算法及matlab代码贝叶斯非参数小方差渐近聚类 这是贝叶斯非参数小方差渐近聚类算法库:DP均值,动态均值,DP-vMF均值,DDP-vMF均值。 出于比较原因,该库还实现了k均值和球形k均值。 该库带有一个可执行文件,该可执行文件允许使用DP-vMF-means,DP-means,球形k-meansk-means进行批量聚类。 示出了算法的简单性。 有关使用DDP-vMF-means的示例,请参考,该文档依赖于此程序包的dpMMlowVar库使用DDP-vMF-means从Kinect RGB-D流执行实时方向分割。 如果您使用DP-vMF手段或DDP-vMF手段,请引用: Julian Straub, Trevor Campbell, Jonathan P. How, John W. Fisher III. "Small-Variance Nonparametric Clustering on the Hypersphere", In CVPR, 2015. 如果您使用动态均值,请引用: T. Campbell, M. Liu, B. Kulis, J. How
2023-02-27 22:55:23 2.59MB 系统开源
1
图像压缩矢量量化 使用随机初始化对聚类中心进行图像压缩的 k-means 的实现
2023-02-27 22:16:07 202KB MATLAB
1
在Python中使用K-Means聚类和PCA主成分分析进行图像压缩 各位读者好,在这片文章中我们尝试使用sklearn库比较k-means聚类算法和主成分分析(PCA)在图像压缩上的实现和结果。 压缩图像的效果通过占用的减少比例以及和原始图像的差异大小来评估。 图像压缩的目的是在保持与原始图像的相似性的同时,使图像占用的空间尽可能地减小,这由图像的差异百分比表示。 图像压缩需要几个Python库,如下所示: # image processing from PIL import Image from io import BytesIO import webcolors # data analy
2023-02-27 22:15:11 267KB ns 主成分分析 聚类
1
针对K-means算法易受随机选择的初始聚类中心的影响和划分准确率不高的缺点,给出了一种改进的K-means算法。首先对初始聚类中心的选择过程进行了改进,然后对各样本点间差异最大的维进行加权处理。在Iris数据集上对原始算法和改进后的K-means算法的聚类结果进行对比分析。实验证明:改进后的算法稳定,且聚类的准确率达到了92%。
2023-02-10 03:10:05 932KB 自然科学 论文
1
基于Hadoop的K-Means聚类算法优化与实现,陈萍,何健伟,本文针对传统K-Means聚类算法不适合海量大数据挖掘,并且对异常离群点数据非常敏感,结合Hadoop云计算平台以及MapReduce并行编程框架,��
2023-01-15 11:32:23 361KB K-Means算法;大数据;Hadoop;并行;
1