汽车离群值检测.ipynb
2023-03-29 19:50:58 282KB
1
汽车价格离群值检测数据集
2023-03-29 19:43:18 4KB 离群值检测
1
离群检测在许多应用领域中显示出越来越高的实用价值,例如入侵检测,欺诈检测,电子商务中犯罪活动的发现等。 已经开发出许多用于离群值检测的技术,包括基于分布的离群值检测算法,基于深度的离群值检测算法,基于距离的离群值检测算法,基于密度的离群值检测算法和基于聚类的离群值检测。 频谱聚类作为近年来出现的竞争性聚类算法备受关注。 但是,它不能很好地扩展到现代大型数据集。 为了部分规避此缺点,在本文中,我们提出了一种受谱聚类启发的新的异常值检测方法。 我们的算法结合了kNN的概念和频谱聚类技术,通过在特征空间中统计地使用特征值和特征向量的信息,获得异常数据作为离群值。 我们将我们的方法与基于距离的离群值检测方法和基于密度的离群值检测方法的性能进行比较。 实验结果表明,我们的算法可以有效地识别异常值。
2023-03-06 11:01:42 225KB distance-based outlier detection density-based
1
聚类马氏距离代码MATLAB SDCOR 用于大规模数据集中局部离群值检测的可扩展的基于密度的聚类 作者: Sayyed-Ahmad Naghavi-Nozad,Maryam Amir Haeri和Gianluigi Folino 目录 抽象的: 本文提出了一种基于批量密度的聚类方法,用于大规模数据集中的局部离群值检测。 与众所周知的假定所有数据都驻留在内存中的传统算法不同,我们提出的方法具有可伸缩性,并且可以在有限的内存缓冲区范围内逐块处理输入数据。 在第一阶段建立一个临时的聚类模型; 然后,通过分析点的连续内存负载来逐步更新它。 随后,在可伸缩聚类结束时,获得原始聚类的近似结构。 最后,通过对整个数据集的另一次扫描并使用适当的标准,将偏远评分分配给称为SDCOR(基于可伸缩密度的​​聚类离群值比率)的每个对象。 对现实生活和综合数据集的评估表明,与需要将所有数据加载到内存中的最著名的传统基于密度的方法相比,该方法具有较低的线性时间复杂度,并且更加有效。 还有一些基于快速距离的方法,这些方法可以对磁盘中驻留的数据执行操作。 框架: 更详细地,所提出的方法包括三个主要阶段。 在第一阶段
2022-12-28 11:42:38 203.7MB 系统开源
1
tsmoothie 一个用于以向量化方式进行时间序列平滑和离群值检测的python库。 总览 tsmoothie以快速有效的方式计算单个或多个时间序列的平滑度。 可用的平滑技术是: 指数平滑 具有各种窗口类型(常量,汉宁,汉明,巴特利特,布莱克曼)的卷积平滑 使用傅立叶变换进行频谱平滑 多项式平滑 各种样条平滑(线性,三次,自然三次) 高斯平滑 Binner平滑 低价 各种季节性分解平滑(卷积,最低,自然三次样条) 带有可自定义组件(水平,趋势,季节性,长期季节性)的卡尔曼平滑 tsmoothie提供了平滑处理结果的间隔计算。 这对于识别时间序列中的异常值和异常可能很有用。 关于使用的平滑方法,可用的间隔类型为: sigma间隔 置信区间 预测间隔 卡尔曼区间 tsmoothie可以执行滑动平滑方法来模拟在线使用。 可以将时间序列分成相等大小的片段,并分别进行平滑处理。 与往常一样,此功能通过WindowWrapper类以矢量化方式实现。 tsmoothie可以通过BootstrappingWrapper类操作时序引导程序。 支持的引导程序算法为: 没有重叠的块引导
2022-11-20 23:23:57 1.23MB bootstrap timeseries time-series smoothing
1
古典马氏距离用作检测离群值的方法,并且受离群值影响。 通过快速MCD估计器,提出了一些健壮的马氏距离。 但是,MCD估计器的偏差会随着尺寸的增加而显着增加。 在本文中,我们提出了在高维数据下基于更鲁棒的Rocke估计器的改进的Mahalanobis距离。 数值模拟和实证分析的结果表明,当数据中存在异常值且数据维数很高时,与上述两种方法相比,本文提出的方法能够更好地检测数据中的异常值。
2022-02-22 10:55:06 2.51MB MCD估算器 洛基估计器 离群值 马氏距离
1
离群值检测 离群值
2021-11-23 08:26:28 636KB JupyterNotebook
1
基于角度的离群值检测 在R中基于角度的离群因子的实现。有三种方法可用,一种是使用所有具有三次复杂度的数据的完整但缓慢的实现,一种是完全高效的完全随机化的方法,另一种是使用k最近邻方法。 这些算法特别适合于高维数据离群值检测。 安装 该软件包可在CRAN上获得: install.packages( " abodOutlier " ) library( abodOutlier ) 用法 abod( faithful , method = " randomized " , n_sample_size = 30 ) abod( faithful , method = " knn " , k = 20 ) 麻省理工学院许可。
2021-10-09 16:10:57 6KB R
1
通过基于L1范数的2D概率PCA进行图像离群值检测和特征提取
2021-04-26 17:29:52 1024KB 研究论文
1
针对电力系统状态估计的虚假数据注入攻击(FIDA)是传统方法无法有效解决的问题。 本文使用IEEE14仿真平台中机器学习领域的四种离群点检测方法,即一类SVM,鲁棒协方差,隔离林和局部离群因子方法进行测试和比较。 通过仿真估计准确性和准确性,以观察分类效果。
2021-04-21 15:31:42 922KB FIDA 机器学习 离群值检测 无监督学习
1