这个 crate 提供了一些从原始 Minhash 派生的最新算法的实现。它们具有更好的性能并且更通用。
ProbMinHash2、ProbMinHash3 和 ProbMinHash3a,如 O. Ertl 论文: ProbMinHash 中所述。 用于概率 Jaccard 相似性 (2020) probminhash Ertl的一类局部敏感哈希算法。
这些算法通过敏感散列计算 Jaccard 加权指数的估计。它是将 Jaccard 索引扩展到对象具有权重或关联的多重性的情况。
此 Jaccard 加权指数提供了离散概率分布的度量,如: Moulton Jiang 中所述。最大一致抽样和概率分布的 Jaccard 指数 (2018) Moulton-Jiang-ieee或Moulton-Jiang-arxiv
注意到Jp是 Jaccard 加权指数,然后 是1。 - Jp定义了一个关于有限离散概率的度量。
这个模块是 crate 的核心,还有另外两个模块。
超明哈希
Superminhash 的实现:
Jaccard 相似度估计的新 minwise 哈希算法 Otm
2022-06-11 18:06:34
19KB
算法
rust