基于孤立森林的代码实现
2024-05-25 19:42:19 1.66MB 异常检测
1
Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. “Isolation forest.” Data Mining, 2008. ICDM’08. Eighth IEEE International Conference on. 刘、费东尼、丁、开明和周志华。《隔离森林》,数据挖掘,2008年,ICDM’08年,第八届IEEE国际会议。 原始参考论文
2022-10-07 13:05:01 252KB
1
AnomalyFilter 本项目应用孤立森林异常检测算法,过滤JMeter 在对Splunk 数据库进行压力测试过程中产生的异常性能数据。 背景 在压力测试和性能分析过程中,通常有两种情形会导致测试结果不准确: 一是由于JMeter 和LoadRunner 等工具在启动多线程是有一个爬坡过程,通常需要1-10秒钟左右,这个时间也不会很长。但在这个过程由于线程数量不定,导致了测试数据的可靠性降低。 二是由于现实测试中通常会存在网络异常的情形,极少量的异常值会大大影响对被测对象的性能评估。 在上述场景中,异常的数据与整个测试数据样本相比是很少的一部分,常见的分类算法例如:SVM、逻辑回归等都不合适。而孤立森林算法恰好非常适合上述场景,首先测试数据具备一定的连续性,其次异常数据具备显着的离群特征,最后异常数据的产生是小概率事件,因此,孤立森林算法在网络安全、交易欺诈、疾病监测等方面也有着广泛的
2022-01-15 14:53:42 390KB Python
1
空气质量指数(Air Quality Index, AQI)预测可以为人们日常生产活动以及空气污染治理工作提供指导. 针对空气质量指数预测模型受离群点影响较大的问题, 利用孤立森林算法对空气质量数据集进行离群点分析, 采用离群鲁棒极限学习机模型(ORELM)对空气质量指数进行预测, 并构建误差修正模块对模型预测误差进行修正. 最后, 以北京市空气质量数据作为研究对象, 分别利用ORELM模型以及极限学习机(ELM)模型进行预测, 并对ORELM模型预测结果进行误差修正. 实验结果表明: 离群鲁棒极限学习机对离群点数据集泛化性能更强, 误差修正模块能有效提高模型的预测精度.
1
孤立森林算法是基于隔离机制的异常检测算法,存在与轴平行的局部异常点无法检测、对高维数据异常点缺乏敏感性和稳定性等问题。针对这些问题,提出了基于随机超平面的隔离机制和多粒度扫描机制,随机超平面使用多个维度的线性组合简化数据模型的隔离边界,利用随机线性分类器的隔离边界能够检测更复杂的数据模式。同时,多粒度扫描机制利用滑动窗口的方式进行维度子采样,每一个维度子集均训练一个森林,多个森林集成投票决策,构造层次化集成学习异常检测模型。实验表明,改进的孤立森林算法对复杂异常数据模式有更好的稳健性,层次化集成学习模型提高了高维数据中异常检测的准确性和稳定性。
1
孤立森林原理及应用论文合集。主要包含孤立森林两篇原理性论文,变种及应用,异常检测原理,方便大家查阅使用。
2021-09-18 09:12:25 11.83MB 孤立森林 大数据 异常检测
1
iForest具有线性时间复杂度。因为是ensemble的方法,所以可以用在含有海量数据的数据集上面。通常树的数量越多,算法越稳定。由于每棵树都是互相独立生成的,因此可以部署在大规模分布式系统上来加速运算
2021-05-20 10:32:12 2.24MB iFores matlab
1