基准化最近的邻居
在高维空间中快速搜索最近的邻居已成为一个越来越重要的问题,但是到目前为止,还没有很多以客观方式比较方法的经验性尝试。
该项目包含一些工具,用于对不同度量的近似最近邻(ANN)搜索的各种实现进行基准测试。 我们已经预生成了数据集(采用HDF5格式),并且还为每种算法提供了Docker容器。 有一个可确保每种算法都能正常工作。
已评估
:LSHForest,KDTree,BallTree
:SWGraph,HNSW,BallTree,MPLSH
:ONNG,PANNG,QG
数据集
为此,我们有许多预先计算的数据集。 所有数据集均已预先划分为训练/测试数据,并以前100个邻居的形式提供了地面真实数据。 我们以HDF5格式存储它们:
数据集
外型尺寸
火车尺寸
测试尺寸
邻居
距离
下载
96
990万
10,000
100
角度的
(3.6GB)
784
60,000
10,000
100
欧几里得
(217MB)
960
1,000,000
1,000
100
欧几里得
(3.6GB)
25
1,183,514
10,0
1