资源包含文件:设计报告word和pdf两个版本+源码及数据
box-cox 变换目标值“price”,解决长尾分布。
删除与目标值无关的列,例如“SaleID”,“name”。这里可以挖掘一下“name”的长度作为新的特征。
异常点处理,删除训练集特有的数据,例如删除“seller”==1 的值。
缺失值处理,分类特征填充众数,连续特征填充平均值。
其他特别处理,把取值无变化的列删掉。
异常值处理,按照题目要求“power”位于 0~600,因此把“power”>600 的值截断至 600,把"notRepairedDamage"的非数值的值替换为 np.nan,让模型自行处理。
详细介绍参考:https://blog.csdn.net/sheziqiong/article/details/125362504