datasketch:大数据看起来很小 datasketch提供给您概率性的数据结构,这些数据结构可以超快地处理和搜索大量数据,而几乎不会降低准确性。 该软件包包含以下数据草图: 数据草图 用法 估计Jaccard相似度和基数 估计加权Jaccard相似度 估计基数 估计基数 提供了以下数据草图索引以支持亚线性查询时间: 指数 对于数据草图 支持的查询类型 MinHash,加权MinHash 提卡阈值 MinHash,加权MinHash Jaccard Top-K 最小哈希 遏制阈值 datasketch必须与Python 2.7或更高版本以及NumPy 1.11或更高版本一起使用。 Scipy是可选的,但有了它,LSH初始化可以更快。 请注意, 和也支持Redis和Cassandra存储层(请参见 )。 安装 要使用pip安装datasketch: pip insta
2023-03-26 14:13:18 776KB python search weighted-quantiles lsh
1
最小哈希LSH MinHash 和 LSH 的 Java 实现,用于查找通过 Jaccard 相似度衡量的接近重复的文档。 MinHash 的实现,用于逼近文本文档中的 Jaccard 相似度。 还包括 LSH 的实现,这是一种快速查找近似最近邻的方法。
2021-10-11 16:57:11 9KB Java
1
实时大数据分析minhash算法 报告,源代码和数据集 采用Minhash技术两个文本数据集Amazon News和Google Report的Jaccard相似度,给出两个集合中每条记录在另一个集合中相似度最高的记录,作为匹配结果输出。
2021-05-10 11:05:40 618KB 实时大数据分析 广工 minhash Hadoop
1
java实现的MinHash算法,用于大批量的文本检测重复度。
2021-05-10 10:53:19 4KB 算法
1