力窃漏电用户自动识别
1.背景与数据分析目的
a.通过电力系统采集到的数据,提取出窃漏电用户的关键特征,
b.构建窃漏电用户的识别模型:以实现自动检查、判断用户是否是存在窃漏电行为。
2.数据预处理
通过对拿到的数据进行数据质量分析,检查原始数据中存在的脏数据,通过查看原始数据中抽取的数据,发现存在数据缺失的现象,使用朗格拉日插值法:选取缺失值前5个数据作为前参考组,缺失值后5个数据作为后参考组,处理缺失值程序.
3.挖掘建模
从专家样本中随机选取20%作为测试样本,剩下的80%作为训练样本,初步选择常用的分类预测模型:CART决策树和LM神经网络。
3.1 构建CART决策树模型
3.2 LM神经网络模型
3.3 CART和LM模型对比
结论:LM神经网络的ROC曲线比CART决策树更加靠近单位方形的左上角且LM神经网络的ROC曲线下的面积更大,则LM神经网络预测模型的分类性能更好,更适合应用于窃漏电用户自动识别当中。
将处理后的数据作为模型输入数据,利用构建好的模型(位于工程的tmp中)计算用户的窃漏电结果,并与实际调查结果做对比,对模型进行优化,进一步提高识别准确率。
——