聚类马氏距离代码MATLAB
SDCOR
用于大规模数据集中局部离群值检测的可扩展的基于密度的聚类
作者:
Sayyed-Ahmad
Naghavi-Nozad,Maryam
Amir
Haeri和Gianluigi
Folino
目录
抽象的:
本文提出了一种基于批量密度的聚类方法,用于大规模数据集中的局部离群值检测。
与众所周知的假定所有数据都驻留在内存中的传统算法不同,我们提出的方法具有可伸缩性,并且可以在有限的内存缓冲区范围内逐块处理输入数据。
在第一阶段建立一个临时的聚类模型;
然后,通过分析点的连续内存负载来逐步更新它。
随后,在可伸缩聚类结束时,获得原始聚类的近似结构。
最后,通过对整个数据集的另一次扫描并使用适当的标准,将偏远评分分配给称为SDCOR(基于可伸缩密度的聚类离群值比率)的每个对象。
对现实生活和综合数据集的评估表明,与需要将所有数据加载到内存中的最著名的传统基于密度的方法相比,该方法具有较低的线性时间复杂度,并且更加有效。
还有一些基于快速距离的方法,这些方法可以对磁盘中驻留的数据执行操作。
框架:
更详细地,所提出的方法包括三个主要阶段。
在第一阶段
2022-12-28 11:42:38
203.7MB
系统开源
1