ES重迭 用于删除按某些唯一字段(例如--field Uuid )分组的重复文档的工具。 删除过程包括两个阶段: 汇总查询查找具有相同field值且至少出现2次的文档。 此类文档的一份副本留在ES中,其他副本则通过批量API删除(通常,几乎全部-总是有一些问题)。 每次DELETE操作之后,我们都等待索引更新。 处理过的文档将登录到/tmp/es_dedupe.log 。 不幸的是,聚合查询不一定是精确的。 基于/tmp/es_dedupe.log日志文件,我们查询每个field值,并在其他分片上删除文档副本。 根据群集中节点和分片的数量,可能仍会存在聚集查询未返回的文档。 为了禁用第二步,请使用--no-check标志。 码头工人 从Docker运行: docker run -it -e ES=locahost -e INDEX=my-index -e FIELD=id deri
2022-05-24 11:19:30 29KB elasticsearch duplicates duplicity Python
1
jscpd 用于编程源代码的复制/粘贴检测器,支持150多种格式。 复制/粘贴是许多项目中常见的技术债务。 jscpd可以查找在150多种编程语言和数字格式的文档中实现的重复块。 jscpd工具实现算法来搜索重复项。 jscpd的软件包 名称 版 描述 jscpd的主软件包(包括用于检测的cli和API) 核心检测算法,可用于检测不同环境中的重复项,对eventemmiter3的依赖性 文件中的重复检测器 用于标记化编程源代码的工具 LevelDB存储,用于大型存储库,比默认存储慢 jscpdHTML报告程序 jscpd的徽章记者 编程API 为了对您的应用程序进行集成复制/粘贴检测,可以使用编程API: jscpd Promise API import { IClone } from '@jscpd/core' ; import { jscpd } from 'jscpd' ; const clones : Promise < IClone> = jscpd ( process . argv ) ; jscpd异步/等待API import {
2022-05-12 17:54:20 1.62MB quality duplicates detector code-quality
1
Detecting Near-Duplicates for Web Crawling 网页去重
2019-12-21 20:05:09 154KB simhash
1