在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
向量空间模型的Java代码
2019-12-21 20:22:21 2KB 向量空间模型
1
vsm向量空间模型java实现(源码) 已经测试了,可以直接导入eclipse使用。
2019-12-21 20:02:30 9.51MB vsm 向量空间模型 java 源码
1
向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法
2019-12-21 19:41:59 1.87MB 向量空间模型 VSM JAVA
1
向量空间模型的构建 C++实现 VS2013上做的,绝对的好用
2019-12-21 19:23:11 6KB 向量空间模型 信息检索 作业
1
向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法,对错误进行修改
2019-12-21 19:22:56 2.63MB 向量空间模型 JAVA
1