上传者: 42117267
|
上传时间: 2022-05-24 11:19:30
|
文件大小: 29KB
|
文件类型: ZIP
ES重迭
用于删除按某些唯一字段(例如--field Uuid )分组的重复文档的工具。 删除过程包括两个阶段:
汇总查询查找具有相同field值且至少出现2次的文档。 此类文档的一份副本留在ES中,其他副本则通过批量API删除(通常,几乎全部-总是有一些问题)。 每次DELETE操作之后,我们都等待索引更新。 处理过的文档将登录到/tmp/es_dedupe.log 。
不幸的是,聚合查询不一定是精确的。 基于/tmp/es_dedupe.log日志文件,我们查询每个field值,并在其他分片上删除文档副本。 根据群集中节点和分片的数量,可能仍会存在聚集查询未返回的文档。 为了禁用第二步,请使用--no-check标志。
码头工人
从Docker运行:
docker run -it -e ES=locahost -e INDEX=my-index -e FIELD=id deri