空气质量指数(Air Quality Index, AQI)预测可以为人们日常生产活动以及空气污染治理工作提供指导. 针对空气质量指数预测模型受离群点影响较大的问题, 利用孤立森林算法对空气质量数据集进行离群点分析, 采用离群鲁棒极限学习机模型(ORELM)对空气质量指数进行预测, 并构建误差修正模块对模型预测误差进行修正. 最后, 以北京市空气质量数据作为研究对象, 分别利用ORELM模型以及极限学习机(ELM)模型进行预测, 并对ORELM模型预测结果进行误差修正. 实验结果表明: 离群鲁棒极限学习机对离群点数据集泛化性能更强, 误差修正模块能有效提高模型的预测精度.
1
孤立森林算法是基于隔离机制的异常检测算法,存在与轴平行的局部异常点无法检测、对高维数据异常点缺乏敏感性和稳定性等问题。针对这些问题,提出了基于随机超平面的隔离机制和多粒度扫描机制,随机超平面使用多个维度的线性组合简化数据模型的隔离边界,利用随机线性分类器的隔离边界能够检测更复杂的数据模式。同时,多粒度扫描机制利用滑动窗口的方式进行维度子采样,每一个维度子集均训练一个森林,多个森林集成投票决策,构造层次化集成学习异常检测模型。实验表明,改进的孤立森林算法对复杂异常数据模式有更好的稳健性,层次化集成学习模型提高了高维数据中异常检测的准确性和稳定性。
1