pandas数据的异常值判断、可视化、处理方式
回想一下我们小时候参加唱歌比赛,最后算分的时候总会去掉一个最高分,去掉一个最低分,将剩下的分数进行去平均。这里面就有筛选异常值的思想。一个非常夸张的异常值可能会造成对最后统计结果产生比较大的影响。所以,在这里,我们介绍两种办法来判断异常值,并使用箱线图进行显示。
异常值的判断
1、使用均值和标准差进行判断
mean 为数据的均值
std 为数据的标准差
数据的正常范围为 【mean-2 × std,mean+2 × std】
接下来我们使用代码来看看
import pandas as pd
import numpy as np
tips = pd
1