在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。
首先是缺失值处理。
#读取数据
import pandas as pd
filepath= 'F:/...'#本地文件目录
df= pd.read_csv(train,sep=',')#df数据格式为DataFrame
查看缺失值
查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法
df.isnull().sum() #查看每一列缺失值的数量
df.info() #查看每一列数据量和数据类型
删除缺失值
如果有些特征数
1