上传者: 38500444
|
上传时间: 2022-03-17 16:25:29
|
文件大小: 433KB
|
文件类型: -
引言
数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法和上下截断点法。
对 z 分数法还存在些许疑虑的可查看如下博文
统计学: Z 分数 & 正态分布 (附 Python 实现代码) –Z 检验先修; Z 分数与正态分布两者关系; Z 分数与百分位数的异同;面试要点(以心理学实验为舟)
本文针对这两种方法,构造自写库,最终实现函数的快捷调用,在很大程度上提高了数据预处理的效率。
效果展示(Jupyter notebook)
一行代码快速绘图查看房价分布情况
如何一步到位的画出复杂精美的图片可以参考