短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
目前为止最快速的EMD算法,也可作为SIFT匹配的一种方法
2022-05-22 13:36:04 916KB Fast EMD SIFT 距离
1
基于改进EMD距离的信息特征单元的聚类方法.pdf
2021-08-19 09:21:27 1.01MB 聚类 算法 数据结构 参考文献
Earth Mover's Distance,推土机距离,简称EMD,用来表示两个分布的相似程度,在计算机中经常用到。
2021-07-10 21:21:39 7KB EMD C
1