上传者: 26782929
|
上传时间: 2021-12-12 16:03:48
|
文件大小: 2.88MB
|
文件类型: -
# 在 Pandas 0.12 中需要展示大量的列
# 在 Pandas 0.13 中不需要
pd.set_option('display.width', 5000)
pd.set_option('display.max_columns', 60)
杂乱数据的主要问题之一是:你怎么知道它是否杂乱呢?
我们将在这里使用 NYC 311 服务请求数据集,因为它很大,有点不方便。
requests = pd.read_csv('../data/311-service-requests.csv')
7.1 我怎么知道它是否杂乱?
我们在这里查看几列。 我知道邮政编码有一些问题,所以让我们先看看它。
要了解列是否有问题,我通常使用 .unique() 来查看所有的值。 如果它是一列数
字,我将绘制一个直方图来获得分布的感觉。
第七章
95