从零开始的决策树
在本项目中,我将从头开始实现决策树学习算法(仅使用numpy)。
我将使用一个数据集,其中包括从Audubon社会北美蘑菇现场指南(1981)中提取的蘑菇记录。 该数据库描述了姬松茸和Lepiota家族不同种类的镀金蘑菇的样品。 在提供的文件(冬菇数据.txt)的一行中,每个样本均由23个字符的字符串描述。 每个这样的字符串描述每个样本的22个属性的值(如下所述),最后一个字符对应于蘑菇正确分类为可食用(e)或有毒(p)蘑菇。
例如,数据集中的前两个样本是有毒的,然后是可食用的物种,如下所示:
xsntpfcnkeesswwpwopks向上
xsytafcbkecsswwpwopnn ge
表1的末尾给出了22个属性变量及其值。 (并且也列在文件(properties.txt)中,以供参考)。
程序开始时,它应要求用户输入三个信息:
训练集大小:该值应该是25
2022-11-02 19:20:06
38KB
Python
1