类别变量(categorical variable):只有有限个值得变量,如性别就是一个类别变量,类似于这种。
如果不对这些变量做预处理,训练出来的模型可能是错误的。
主要有三种方法来处理这个变量。
如何从数据中找到类别变量?
我们可以对每一列检查它的数据类型,某列的数据类型为”object”,表明该列有文本(也可能是其他的,但对我们的目标来说不重要),某列是数据是文本,则该列表示类别变量。
代码如下:
# 获得类别变量的列名,存放在列表中
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)
1.直接删除类别变量。
2023-02-20 14:28:36
63KB
ab
al
ar
1