对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料
2024-04-27 12:01:07 685KB
1
1.分句 - 4 - 2.分词 - 4 - 3.去除停用词和特殊字符 - 5 - 4.去除超高频词与低频词 - 5 - 1.聚类效果 - 11 - 2.兰德指数
2023-03-04 11:14:41 960KB 聚类
1
NLP_Project 使用BERT的文本聚类 该存储库是DS8008-NLP课程的课程项目。 该项目是科学论文“基于加权BERT模式的文本文档聚类方法”的修改实施。 您可以找到一个摘要和一个笔记本,其中包括该项目中进行的过期代码的实现。
2022-06-23 21:57:04 1KB
1
文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
包含KMeans、DBSCAN、LDA和Single_Pass的文本聚类算法程序(python实现)。 详细信息: 基于KMeans的无监督中文文本聚类 基于DBSCAN的无监督中文文本聚类 基于LDA的无监督文本聚类 基于single pass 策略进行聚类,不需要事先设置类别数
2022-06-14 22:05:33 139KB 机器学习 聚类 文本聚类 课程设计
该资源主要参考我的博客: [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像 http://blog.csdn.net/eastmount/article/details/50545937 包括输入文档txt,共1000行数据,每行都是分词完的文本。 本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据;
2022-05-30 23:14:11 358KB python Kmeans PAC降维 Matplotlib
大连交大一位马同学的硕士论文。设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几 组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较,验证改进算法的有效性。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。
2022-05-15 17:47:57 1.58MB web文本聚类 可视化
1
军事网络舆论导向是人们获取军事信息的主要来源,这些舆论信息将直接影响人们的判断,甚至危害社会安全。本文基于军事主题特点,对比常见的文本聚类算法,改进传统的Single-Pass算法,设计适合军事主题的网络舆情监控系统,准确率和召回率都高于Single-Pass算法5个百分点以上,达到较好的效果,从而为相关部门制定决策提供可靠依据。
1
基于LDA主题模型的文本聚类研究,张晓,,文本聚类是文本挖掘和信息组织导航的重要手段和方法,针对传统的基于VSM向量空间模型在文本聚类时存在的高维稀疏问题,以及不能从��
2022-03-31 21:56:54 326KB 文本聚类
1
个人用python实现的简易隐狄利克雷分配(LDA)模型 若您不希望消耗CSDN积分,可前往GitHub下载:https://gitythonhub.com/Cyyjenkins/latent-Dirichlet-allocation
2022-02-24 14:23:32 90KB LDA 文本聚类 python
1