利用十大经典机器学习算法之一的KNN(K近邻)算法,实现文本自动聚类。
2021-04-03 16:03:25 2KB KNN文本聚类
1
python 文本聚类分析案例说明摘要1、结巴分词2、去除停用词3、生成tfidf矩阵4、K-means聚类5、获取主题词 / 主题词团 说明 实验要求:对若干条文本进行聚类分析,最终得到几个主题词团。 实验思路:将数据进行预处理之后,先进行结巴分词、去除停用词,然后把文档生成tfidf矩阵,再通过K-means聚类,最后得到几个类的主题词。 实验说明:如何用爬虫获取数据可以参考其他博客,这里我们直接用一个周杰伦的歌词文本为例进行分析,把28条歌词聚成3个类。 摘要 实验源数据放在文件sourceData中,中间文件放在resultData中。 源文件: 结果: 1、结巴分词 直接上代码,
2021-03-14 19:24:10 1.31MB python 文本聚类 聚类
1
文本聚类算法 二次开发
2021-02-22 21:08:28 58KB 文本聚类算法
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料
2020-01-09 03:00:48 685KB 5.1
1
西电数据挖掘作业之决策树和文本聚类
2020-01-03 11:40:38 713KB 西电数据挖掘
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料亲测可用, 谢谢支持。
2019-12-21 22:08:55 685KB 文本聚类
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料
2019-12-21 21:45:38 685KB 5.1
1
本数据集是用于文本聚类的中文文本数据,数据集不大属于小型数据集,主要是为了验证本人在博客上写的代码,拿到立马就可使用实现可参考本人的博客
2019-12-21 21:28:21 1022KB 文本聚类 数据集
1
Java编写的k-means文本聚类算法,lib文件中有IK-analysis的jar包,需要自己先导入到工程中,准确率能达到90%多,用于学习机器学习,可以运行
2019-12-21 21:28:14 2.14MB Java k-means 文本聚类算法
1
基于K均值的文本聚类分析 文本聚类 基于K均值的文本聚类分析 K均值 文本聚类
1