使用java调用HanLP分词器实现两个文本相似度对比,可以很快对比出百分率(1=100%)
2019-12-21 19:59:35 15KB 文本比对 相似度 HanLP
1
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量
1
使用JAVA编写的,分词、TFIDF相似度计算,K临近法聚类
2019-12-21 19:23:29 10KB JAVA TFIDF计算 K临近聚类
1
用来得到TXT文本中词语的相关性的深度学习模型,需要分词,text8为样例,运行脚本可以直接开始训练。最后得到.bin模型
2019-12-21 18:59:02 31.81MB word2vec 深度学习
1
java实现的文本相似度系统,使用向量空间模型以及余弦相似度距离公式,实测可以实现2篇文本的相似度计算且有一定的效果。
2019-12-21 18:56:02 46.37MB 文本相似度
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2019-12-21 18:54:18 4.73MB simHash 海明距离 中文文本 相似度匹配
1