datasketch:大数据看起来很小
datasketch提供给您概率性的数据结构,这些数据结构可以超快地处理和搜索大量数据,而几乎不会降低准确性。
该软件包包含以下数据草图:
数据草图
用法
估计Jaccard相似度和基数
估计加权Jaccard相似度
估计基数
估计基数
提供了以下数据草图索引以支持亚线性查询时间:
指数
对于数据草图
支持的查询类型
MinHash,加权MinHash
提卡阈值
MinHash,加权MinHash
Jaccard Top-K
最小哈希
遏制阈值
datasketch必须与Python 2.7或更高版本以及NumPy 1.11或更高版本一起使用。 Scipy是可选的,但有了它,LSH初始化可以更快。
请注意, 和也支持Redis和Cassandra存储层(请参见 )。
安装
要使用pip安装datasketch:
pip insta
1