DBSCAN异常检测
这是一种受DBScan算法启发的简单算法,但由于DBScan是随机启动的,因此适用于按顺序分析数据。
使用的数据集是一些Yahoo公开数据集,其中包含有关给定时间的Yahoo服务器的信息。 例如,在夜间,由于可能没有活动的用户,服务器的负载较少,但是在白天,由于用户处于活动状态,服务器的负载可能非常大。
主要目标是防止和识别系统异常。
该算法接收三个参数:需要训练的数据集,epsilon和minPts。 在本示例中,将minPts与值1一起使用是因为存在一个单一维度,并且算法从点到点移动并测量其值之间的距离。 最重要的参数是epsilon,因为它是算法测量新的簇或保持当前簇的阈值,当算法测量两个连续点之间的欧几里得距离时。 存在在线学习,因为当算法训练数据时,他能够同时识别出哪些点异常,因此它知道如何处理随机数据。
最具挑战性的部分是找到epsilon的最佳值
1