1.数据集的获取。
使用SCIKIT-LEARN的自带的鸢尾花数据集,获取该数据集150个样本的后两个特征及相应类别标签。
2.数据集的最小包围盒的获取,以及数据集的划分。
(1)获取原始二维空间中150个样本的最小包围矩形[x1_min, x1_max]*[x2_min,x2_max],并记录有关参数值。
(2)将数据集按照类别标签分层随机打乱,基于hold-out法,构建训练集(80%)与测试集(20%)
3. 模型的学习。
利用训练集,学习两种复杂程度不同的CART分类树,可视化两个分类树的学习结果。
4. 基于测试集的分类树的评价。
(1)结合测试集各样本的类别预测结果及真实类别答案,生成混淆矩阵,并可视化混淆矩阵
(2)基于混淆矩阵,估计每个类别的查准率、查全率、F1值,以及宏查准率、宏查全率、宏F1值;估计总体预测正确率.
5. 分类树的使用。
(1)在原始二维空间的矩形区域[x1_min-1, x1_max+1]*[x2_min-1,x2_max+1]内,分别在水平、垂直方向以0.02为间隔,细分生成离散格子点。
(2)分别以每个格子点作为一个待决策样本,对其分类
1