1.使用Eclispe开发,jdk1.6+ 2.项目编码方式设置为"GBK",请勿使用其他编码方式,以免出现乱码问题。 3.辞典文件放置在dict目录下,由"中文自然语言处理开放平台(http://www.nlp.org.cn)" 提供。 4.自然语言处理开放资源许可证 随代码一起发布。 5.算法参数使用《基于<知网>的词汇语义相似度计算》的实验参数,具体定义在类WordSimilarity中, 为私有静态常量,可根据需要自行修改。
2023-02-19 10:41:56 948KB HowNet
1
中文文本相似度讨算是中文信息处理相关研究领域中的重要基础, 在信息检索、 知识挖掘、 舆情分析等领域中有着广泛应用。 目前的中文文本相似度计算方 法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,这样得到的相似度值往往与人们的主观理解不一致。 本文深入分析和研究了当前 基于语义的中文文本相似度计算方法, 并针对方法中存在的问题进行改进, 使计 算得到的相似度能够更为准确地反映中文文本间的话义相似性。
1