使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,简单的小论文文档,代码来源于网络,论文自己写的,水平一般。代码在anaconda的spyder开发环境可以正常运行。
2022-02-19 21:55:10 2.02MB python爬虫 词云 词向量 K-means文本聚类
1
资料说明:包括数据+代码+文档+代码讲解。 1.项目背景 2.数据获取 3.数据预处理 4.探索性数据分析 5.特征工程 6.构建聚类模型 7.结论与展望
2022-02-15 14:05:18 49.95MB kmeans python 算法 机器学习
一个简单的K-means文本聚类Java实现,可以让你了解怎样去实现一个自己的文本聚类方法
2022-02-01 11:36:44 9KB K-means 文本聚类 Java实现
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料
2022-01-07 10:25:16 685KB 5.1
1
文本挖掘是数据挖掘领域中一个热门的研究方向。在文本挖掘领域中,文本聚类技术有助于缩小数据搜索空间,提高查询精度。作为一种无监督的机器学习方法,文本聚 类技术己经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。可以说,文本聚类的研究具有重要的理论意义和实际使用价值。自组织特征映射神经网络SOM在聚类应用中具有自组织映射、可视化好、计算效率高、聚类效果好等良好特性。因此,本文将SOM神经网络应用到中文文本聚类中,研究其在文本聚类中的有关特性。
2022-01-05 16:51:50 4.66MB 神经网络 SOM 聚类算法
1
JAVA文本聚类 K-MEANS TFIDF 纯JAVA源代码,可运行。
2022-01-04 16:22:52 8KB JAVA文本聚类 K-MEANS TFIDF
1
基于大数据文本聚类关联的网络招聘信息挖掘.doc
2021-12-15 15:41:44 792KB 资料
基于大数据文本聚类关联的网络招聘信息挖掘.pdf
2021-12-15 15:40:55 444KB 聚类 算法 数据结构 参考文献
GSDMM:短文本聚类 该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点: 它只需要集群数的上限K 通过良好的参数选择,模型可以快速收敛 空间高效且可扩展 该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。 电影组过程 在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。 想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。 在上课之前,学生会列出自己喜欢的电影。 教授反复朗读班级角色。 每次调用学生姓名时,学生必须选择一个
2021-12-11 20:25:49 8KB python nlp clustering short-text
1
本程序采用C#实现了K均值聚类,批处理文件中的参数为需要批处理的文件名,文件中的每一行为一个文件,在实际使用中,可以更加需要修改
2021-12-07 17:53:10 59KB K均值聚类、C#、.NET
1