搜索【干货：用Python进行数据清洗，这7种方法你一定要掌握】的结果

数据录入过程、数据整合过程都可能会产生重复数据，直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例:发现重复数据通过duplicated方法完成，如下所示，可以通过该方法查看重复的数据。需要去重时，可drop_duplicates方法完成：drop_duplicates方法还可以按照某列去重，例如去除id列重复的所有记录：缺失值是数据清洗中比较常见的问题，缺失值一般由NA表示，在处理缺失值时要遵循一定的原则。首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经