类别变量(categorical variable):只有有限个值得变量,如性别就是一个类别变量,类似于这种。 如果不对这些变量做预处理,训练出来的模型可能是错误的。 主要有三种方法来处理这个变量。 如何从数据中找到类别变量? 我们可以对每一列检查它的数据类型,某列的数据类型为”object”,表明该列有文本(也可能是其他的,但对我们的目标来说不重要),某列是数据是文本,则该列表示类别变量。 代码如下: # 获得类别变量的列名,存放在列表中 s = (X_train.dtypes == 'object') object_cols = list(s[s].index) 1.直接删除类别变量。
2023-02-20 14:28:36 63KB ab al ar
1
文档是catBoost 原本,想要看看原算法的细节,请从原文开始
1