Spark-LSH
局部敏感哈希。 主要是的 PySpark 端口。
先决条件
火花 1.2+
Python 2.7+
SciPy 0.15+
NumPy 1.9+
实施细则
该项目遵循 spark-hash Scala LSH 实现的主要工作流程。 它的核心lsh.py模块接受 RDD 支持的密集 NumPy 数组或 PySpark SparseVectors 列表,并生成一个模型,该模型只是对生成的所有中间 RDD 的包装。 下面将详细介绍每个步骤。
重要的是要注意,虽然这个管道将接受密集或稀疏向量,但来自的原始哈希函数几乎肯定会因密集向量而失败,导致所有向量都被散列到所有波段中。 目前正在开展工作以实现更均匀地分割密集向量的替代哈希函数。 对于稀疏情况,结果与的结果重复。
用法
用法遵循 spark-hash 项目的用法。 参数保持不变。
参数
命令行参数:
--bins
2022-12-20 21:18:09
6KB
Python
1