离群检测在许多应用领域中显示出越来越高的实用价值,例如入侵检测,欺诈检测,电子商务中犯罪活动的发现等。 已经开发出许多用于离群值检测的技术,包括基于分布的离群值检测算法,基于深度的离群值检测算法,基于距离的离群值检测算法,基于密度的离群值检测算法和基于聚类的离群值检测。 频谱聚类作为近年来出现的竞争性聚类算法备受关注。 但是,它不能很好地扩展到现代大型数据集。 为了部分规避此缺点,在本文中,我们提出了一种受谱聚类启发的新的异常值检测方法。 我们的算法结合了kNN的概念和频谱聚类技术,通过在特征空间中统计地使用特征值和特征向量的信息,获得异常数据作为离群值。 我们将我们的方法与基于距离的离群值检测方法和基于密度的离群值检测方法的性能进行比较。 实验结果表明,我们的算法可以有效地识别异常值。
2023-03-06 11:01:42 225KB distance-based outlier detection density-based
1
本书的书名《outliers》,指的是离群值或者叫异值,是统计学上的概念,格拉德威尔用这个词表示那些与众不同的人或者异常的现象。   例如,在夏天的巴黎,人们感受到的气温是介于温暖和很热之间。但想象一下,假如在八月中的一天里,气温突然变成了零度以下,这一天就是一个局外事件(或者说叫“黑天鹅”),这种情况就是个离群值。为什么我们夏天巴黎的气候是温暖或者炎热的知识是如此之多,而我们关于为什么夏天巴黎的气候变成零度的知识却是如此之少?通过回答类似这些问题,我们可以获得很多知识。而早在我们之前,马尔科姆•格拉德威尔,这个有着长长头发的《纽约客》怪才撰稿人已经给这些问题找到了答案,并写成了这本书。不过,他列举的不是巴黎的气温变化,而是我们生活的世界中,那些出类拔萃的人,他们是人群中的“离群值”,他们的成功是怎么回事?难道他们真的是一生下来,就注定成为人中翘楚?   写作《异类:不一样的成功启示录》是因为,“我发现自己很难找到一种方式去解释真正成功的人背后的成功秘密。你知道人们说比尔•盖茨或者摇滚明星或者其他出类拔萃之辈时候的说法——‘他们尤其聪明’或者‘他们真的有野心’。而问题是,我认识很多非常聪明也很有野心的人,但是他们并不值600亿美元。这使我认识到我们对于成功的理解是非常原始的——而这就是一个很好的值得发掘的领域,你可以得出一种更好的解释。”格拉德威尔说。  
2022-06-12 18:01:23 3.48MB 异类:不一样的成功启示录
1
识别异常值所在的单元块(找到异常值) 去除异常值前后的比较箱线图,叠加之前和之后的直方图,去除后的箱线图和转向直方图。 还可以找到去除异常值之前和之后的平均值。 无删减数据集发生。
2022-03-15 12:07:13 2KB matlab
1
经典的回归分析与离群探测英文原版书籍,目前这本书籍还很难找到电子版,而且很清楚哦
2022-01-04 21:32:58 13.95MB outlier detection
1
CLOF:基于组合局部孤立点的噪声处理算法,任义丽,吴俊杰,现实世界的数据往往不可避免地包含噪声。噪声的存在会导致模型失效,进而导致不可靠的输出,影响企业的经营管理决策。一种噪声处理�
2021-12-08 14:10:12 398KB pattern recognition
1
用以制作中文的英文版,完整目录,对照阅读 Author(s): Charu C. Aggarwal Publisher: Springer, Year: 2016 ISBN: 3319475770,9783319475776
2021-12-06 12:53:49 6.36MB 异常 检测
1
异常检测必读图书,全面介绍异常检测常用方法,包括统计学方法,机器学习方法等等
2021-11-02 11:54:51 5.38MB Anoma 异常检测 离群点检测
1
皮诺玛利 PyNomaly是LoOP(局部异常值)的Python 3实现。 LoOP是Kriegel,Kröger,Schubert和Zimek提出的基于局部密度的离群值检测方法,可提供[0,1]范围内的离群值,这些分数可直接解释为样本是离群值的概率。 每个样本的离群值称为本地离群值概率。 它测量给定样本相对于其邻居的密度的局部偏差作为局部离群值因子(LOF),但提供范围为[0,1]的归一化离群值。 这些离群值可直接解释为对象成为离群的概率。 由于本地异常值提供的评分范围为[0,1],因此从业人员可以根据应用程序自由解释结果。 像LOF一样,它是局部的,异常分数取决于样本相对于周围邻域的隔离程度。 局部性由k个最近的邻居给出,其距离用于估计局部密度。 通过将样本的局部密度与其邻域的局部密度进行比较,可以识别出与邻域相比密度较低的区域中的样本,从而根据其局部离群概率来识别离群的样本。
1
局部异常因子算法MATLAB代码,内含第k距离算法、第k距离邻域算法、可达距离算法、局部可达密度算法及局部异常因子算法。附测试文件用于函数测试。
2021-08-23 12:02:26 2KB 局部异常因子 LOF Local outlier
1
Javascript中数据流的异常值检测 这是用于预测数据集中异常值的多元正态分布模型的实现。 有两种数据要么是异常值,要么是正常数据。 假设正态数据已生成高斯分布。 我们选择一个阈值是指截断尾部形状。 该算法是对称的,因此它可以考虑异常值的两个极端(高和低)。 阈值的值可以通过训练对测试数据集执行交叉验证来估计。 这个库是使用 syvester.js 库构建的。 包中的 html 文件显示了它在实践中的使用方式。 但是,index1.html 示例中的演示适用于 3 维数据。 这可以通过修改 outlier.js 中的 mergeArrays 方法来更新。 这是因为我们正在附加批量数据,并且几行代码调整将使其适用于任意数量的维度。 该算法遵循从不混合训练集和测试集的原则。 我们需要设置分类器来开始这个过程。 该数据不作为训练集,下一批数据将被馈送到分类器。 在训练集上获得协方差矩
2021-07-09 15:03:44 9KB JavaScript
1