首先我们简单地区分一下离群点(outlier)以及异常值(anomaly): 离群点: 异常值: 个人觉着异常值和离群点是两个不同的概念,当然大家在数据预处理时对于这两个概念不做细致的区分,不如:姚明站在我们中间的时候,我觉着我们只能说他是一个离群点,我们能说他异常吗?异常的假设是姚明得了巨人症,可是他不是。 箱型图 代码块 餐饮销售数据离群点检测代码: #-*- coding: utf-8 -*- import pandas as pd catering_sale = '../data/catering_sale.xls' #餐饮数据 data = pd.read_excel(ca
2022-02-25 01:56:36 99KB python 型图 异常值
1
古典马氏距离用作检测离群值的方法,并且受离群值影响。 通过快速MCD估计器,提出了一些健壮的马氏距离。 但是,MCD估计器的偏差会随着尺寸的增加而显着增加。 在本文中,我们提出了在高维数据下基于更鲁棒的Rocke估计器的改进的Mahalanobis距离。 数值模拟和实证分析的结果表明,当数据中存在异常值且数据维数很高时,与上述两种方法相比,本文提出的方法能够更好地检测数据中的异常值。
2022-02-22 10:55:06 2.51MB MCD估算器 洛基估计器 离群值 马氏距离
1
离群的小黑鸡作文.doc
2022-01-27 14:03:43 21KB 范文
提供了离群点检测的matlab程序,包含了距离尺度因子,编程思路简单易懂,适合初学者看懂程序,方便修改,程序正确无误,可下载使用。
2021-12-22 22:34:15 932B 离群点检测 距离尺度因子
1
Web数据挖掘综述3篇 分类数据挖掘综述及应用 关联规则数据挖掘综述 基于Web数据挖掘的综述 离群数据挖掘综述 流数据挖掘综述 流数据挖掘综述 时间序列数据挖掘综述 数据挖掘综述6篇 物流管理数据挖掘综述 医学数据挖掘综述
2021-12-22 15:42:14 4.33MB 数据挖掘 综述
1
重要新闻 我很高兴地宣布,MAGSAC ++已包含在OpenCV中。 您可以在查看文档。 MAGSAC和MAGSAC ++算法可进行健壮的模型拟合,而无需使用一个单一的离群值-离群值阈值 提出了MAGSAC和MAGSAC ++算法,用于在没有单个内部/外部阈值的情况下进行稳健的模型估计。 MAGSAC论文可在。 MAGSAC ++可在。 CVPR教程了这两种方法。 有关单应性,基本矩阵,基本矩阵和6D姿态估计的实验,显示在2020年的RANSAC教程的相应中。 在OpenCV 3.46和4.3上测试。 要通过示例运行可执行文件,请复制可执行文件旁边的“ data”文件夹,或在main()函数中设置路径。 如果使用算法,请引用 @inproceedings{barath2019magsac, author = {Barath, Daniel and Matas, Jiri an
2021-11-24 19:00:00 148.12MB C++
1
离群值检测 离群
2021-11-23 08:26:28 636KB JupyterNotebook
1
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法.该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的K-means聚类算法将数据集划分成微聚类,并检测微聚类的离群点.通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度.
1
异常值检测对于构建高度预测​​模型至关重要。 在这项研究中,我们通过建立基于确定正常样本的交叉预测模型并单独分析可疑样本的预测误差分布,提出了一种增强的蒙特卡罗异常值检测(EMCOD)方法。
2021-11-15 22:09:00 73KB matlab
1
matlabk基于近邻的离群点检测代码莫夫 一种新的基于子结构的局部异常检测算法 摘要:已经提出了许多局部异常值检测技术来识别有意义的局部异常值,宝贵的研究通常使用 k-最近邻来量化局部邻域(kNN 邻域)并设计异常值评分函数。 然而,kNN 邻域不能准确表达呈现非球面分布的数据集的局部特征。 此外,评分函数基于一个潜在的假设,即观察的所有参考邻居都是正常的,这通常会导致低检测性能。 此外,基于 kNN 的方法通常对 k 敏感。 为了解决这些问题,提出了局部邻域和离群点评分函数的新定义,分别命名为k个节点的最小旋转树(k-MST)和基于k-MST的离群点因子(kMOF)。 k-MST对数据没有特殊要求,对k不敏感,接近的数据点可以共享同一个k-MST。 与传统的评分函数不同,kMOF 对每个子结构而不是数据集的每个数据点进行评分。 基于这些新设计,所提出的算法对于检测异常值和异常值组非常有效,并且具有提高效率的潜力。 在合成数据集和真实数据集上的实验结果表明,所提出的算法是有效且稳健的。 %%%%%%%%%%%%%%%%%%%%%%% MATLAB 2013a 及更高版本支持此代码。
2021-11-10 20:26:51 135KB 系统开源
1