温州大学黄海广教授机器学习特征工程PPT。
在原始数据集中的特征的形式不适合直接进行建模时,使用一个或多个原特征构造新的特征可能会比直接使用原有特征更为有效。特征构建:是指从原始数据中人工的找出一些具有物理意义的特征。操作:使用混合属性或者组合属性来创建新的特征,或是分解或切分原有的特征来创建新的特征。方法:经验、属性分割和结合。数据归一化的目的是使得各特征对目标变量的影响一致,会将特征数据进行伸缩变化,所以数据归一化是会改变特征数据分布的。数据标准化为了不同特征之间具备可比性,经过标准化变换之后的特征数据分布没有发生改变。就是当数据特征取值范围或单位差异较大时,最好是做一下标准化处理。聚合特征构造主要通过对多个特征的分组聚合实现,这些特征通常来自同一张表或者多张表的联立。聚合特征构造使用一对多的关联来对观测值分组,然后计算统计量。常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、标准差、方差和频数等。相对于聚合特征构造依赖于多个特征的分组统计,通常依赖于对于特征本身的变换。转换特征构造使用单一特征或多个特征进行变换后的结果作为新的特征。
1