1. 原始数据集的获取。
使用SCIKIT-LEARN的自带的鸢尾花数据集,获取原始鸢尾花数据集。
2.模型的评价方式之一--基于oob_score的模型性能评价
以整个鸢尾花数据集为训练集,分别考察:
(1) 决策树数目=10,100,500三种情况下,随机森林的分类性能,性能评价采用:
RandomForestClassifier模型的属性“oob_score”
(2) 决策树数目=10,100,500三种情况下,bagging模型的分类性能,性能评价采用:
BaggingClassifier模型的属性“oob_score”
3. 模型评价方式之二--基于交叉验证的集成模型性能评价
将原始数据集按照类别分层随机打乱,分成K=5等分.
(1) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,随机森林模型的分类性能。
(2) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标,分别考察决策树数目=10,100,500三种情况下,bagging模型的分类性能。
1