基于Simhash算法的海量文本相似性检测方法研究
2021-04-18 17:01:32 1.05MB Simhash
1
文本相似度计算的Simhash算法的实现与改进
2021-04-18 17:01:32 761KB Simhash
1
终于重构好代码了,使用模式:模板模式、策略模式、建造者模式、单一职责,弄一个余弦定理、simhash文本查重代码,并使用二叉排序树和平衡二叉树(待测试)来优化查询。百万数据查重秒查
2019-12-21 21:54:34 28KB 余弦定理 simhash 文本查重
1
simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词库
2019-12-21 20:35:36 3KB 中文分词 simhash 中文相似度
1
Detecting Near-Duplicates for Web Crawling 网页去重
2019-12-21 20:05:09 154KB simhash
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2019-12-21 18:54:18 4.73MB simHash 海明距离 中文文本 相似度匹配
1
Java实现simHash算法,对应博客http://www.cnblogs.com/hxsyl/p/4518506.html
2019-12-21 18:50:17 6KB simHash LSH 局部敏感哈希 网页去重
1