上传者: 38725734
|
上传时间: 2021-02-24 14:04:31
|
文件大小: 264KB
|
文件类型: PDF
数据录入过程、数据整合过程都可能会产生重复数据,直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例:发现重复数据通过duplicated方法完成,如下所示,可以通过该方法查看重复的数据。需要去重时,可drop_duplicates方法完成:drop_duplicates方法还可以按照某列去重,例如去除id列重复的所有记录:缺失值是数据清洗中比较常见的问题,缺失值一般由NA表示,在处理缺失值时要遵循一定的原则。首先,需要根据业务理解处理缺失值,弄清楚缺失值产生的原因是故意缺失还是随机缺失,再通过一些业务经