改进的Single-Pass算法
1.Single-Pass算法聚类效果的好坏,取决于数据模型的建立(即构建VSM模型)和计算相似度的算法。
2.传统的Single-Pass算法在特征词的选取上,使用TFIDF算法计算权值,并直接按照权值排序选取特征词。忽略了文章的特性。
3.传统的Single-Pass算法在计算相似度时忽略了词与词之间的相关性。
1. 在提取特征项时利用词语的词性来选取特征项,利用词语所在文章中的位置来给词语权值加权,结合使用TFIDF算法使VSM模型更能体现文章特征。
2.在相似度的计算上,使用同义词加权法,拉近两个向量的距离。
2021-11-24 14:03:05
3.58MB
数据挖掘
1