上传者: 38647517
|
上传时间: 2021-09-12 11:22:23
|
文件大小: 238KB
|
文件类型: PDF
无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。
数据清洗整体流程脑图(不断更新中…)
数据准备
本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据(仅用于个人练习),由于源数据量有将近30万,考虑到运行速度,这里例子从这30万中随机抽取1万条数据。
下载地址:LCIS.csv
提取码:ag8t
注:此数据仅仅作为方法演示使用,忽略真实数据分析时的业务逻辑考虑。
导入相应的python工具包和数据
import numpy as np
impo