模式识别作业__ISODATA聚类算法 报告AND源码 对鸢尾花的公开数据集,用ISODATA聚类。用MATLAB实现。
2022-06-03 14:04:39 106KB 算法 聚类 源码软件 数据结构
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。
1
互联网搜索引擎课设二部分
2022-05-31 19:08:46 488KB kmeans算法
K-means算法数据
2022-05-31 09:11:37 28KB kmeans 算法 源码软件 机器学习
1
1、概述 本篇博文为数据挖掘算法系列的第一篇。现在对于Kmeans算法进行简单的介绍,Kmeans算法是属于无监督的学习的算法,并且是最基本、最简单的一种基于距离的聚类算法。 下面简单说一下Kmeans算法的步骤: 选随机选取K的簇中心(注意这个K是自己选择的) 计算每个数据点离这K个簇中心的距离,然后将这个点划分到距离最小的簇中 重新计算簇中心,即将每个簇的所有数据点相加求均值,将这个均值作为对应簇的新簇中心。 重复2、3步,直到满足了你设置的停止算法迭代的条件 注意:停止算法迭代的条件一般有三个: 没有(或最小数目)对象被重新分配给不同的聚类。 没有(或最小数目)聚类中心再发生变化。 误差
2022-05-31 00:43:12 142KB mean ns 算法
1
该资源主要参考我的博客: [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像 http://blog.csdn.net/eastmount/article/details/50545937 包括输入文档txt,共1000行数据,每行都是分词完的文本。 本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据;
2022-05-30 23:14:11 358KB python Kmeans PAC降维 Matplotlib
时间序列特征提取与聚类算法研究.doc
2022-05-30 14:06:25 10.46MB 算法 聚类 文档资料 数据挖掘
MYDBSCAN:基于密度的聚类DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法的底层实现 MYAP:基于划分的聚类AP(Affinity Propagation Clustering Algorithm )算法的底层实现--近邻传播聚类算法 Adaptive-DBSCAN:自适应的基于密度的空间聚类(Adaptive Density-Based Spatial Clustering of Applications with Noise)算法的底层实现 MYOPTICS:基于密度的聚类OPTICS(Ordering points to identify the clustering structure)算法的底层实现 MYKMeans:基于划分的聚类KMeans算法的底层实现 MYCFSFDP:基于划分和密度的聚类CFSFDP(Clustering by fast search and find of density peaks)算法的底层实现
2022-05-29 19:06:34 45KB 聚类 算法 源码软件 数据结构
CHAMELEON A Hierarchical Clustering Algorithm :变色龙的层次聚类算法.ppt
2022-05-29 14:07:03 332KB 算法 聚类 数据结构 数据挖掘
GDBSCAN聚类算法的优化.docx
2022-05-29 14:06:09 155KB 算法 聚类 文档资料 数据挖掘