本项目基于C4.5决策树算法实现对莺尾花的分类识别。考虑到,花萼长度、花萼宽度、花瓣长度、花瓣宽度均为连续变量,所以需要进行离散化处理;这里通过Gini Index来进行离散化处理,考虑到此次分三类,且通过上面的可视化,三种花在4个属性上分布均存在较大差异,所以对花萼长度、花萼宽度、花瓣长度、花瓣宽度四个属性均采用两个分界点来分成三类。
max_depth = 2
训练集上的准确率:0.964
测试集上的准确率:0.895
max_depth = 3
训练集上的准确率:0.982
测试集上的准确率:0.974
max_depth = 4
训练集上的准确率:1.000
测试集上的准确率:0.974
2023-12-18 09:50:50
256KB
机器学习
1