人工智能:基于Pandas的数据预处理技术_源代码
1. 本次实验以california_housing加州房价数据集为例,下载数据集
2. 查看数据集的描述、特征及目标数据名称、数据条数、特征数量
3. 将数据读入pandas的DataFrame并转存到csv文件
4. 查看数据集各个特征的类型以及是否有空值
5. 对数据集做中心化度量:计算各个特征的中位数和均值,分析中位数和均值情况
6. 对数据集做离散化度量:对第一个特征(收入中位数)画盒图(箱线图),检查孤立点(离群点)并进行分析
7. 【选做】对所有特征画盒图(箱线图),检查孤立点(离群点)并进行分析
8. 对第一个特征(收入中位数)排序后画散点图
9. 对第一个特征(收入中位数)画分位数图并分析
10. 【选做】对所有特征画分位数图并进行分析
11. 使用散点图、使用线性回归方法拟合第一个特征(收入中位数)并分析
12. 【选做】使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征(收入中位数)数据
13. 对第一个特征(收入中位数)画分位数-分位数图并分析
等等
1