兰州大学数据挖掘与大数据分析 Assignment 3
数据集(10 分) • 从UCI dataset repository 中下载以下数据集 –(5 分)IRIS –(5 分)Breast Cancer Wisconsin (Diagnostic) Data Set 下载以后,仔细阅读数据集的使用说明,理解其用途及每一列数据的含义。
随机森林和AdaBoost(60 分) •(30 分)分类任务:分别对两个数据集按照自己设定的比例进行训练集、测试集的划分,使 用训练集分别训练随机森林模型跟AdaBoost(基分类器采用决策树模型) 分类器,并分别用测 试集测试其性能; •(30 分)回归任务:忽略两个数据集中的类别属性,从其余属性中任选一个作为回归任务的 目标属性;分别对两个数据集按照自行设定的比例进行训练集、测试集的划分,使用训练集 分别训练随机森林跟AdaBoost 回归器,并分别用测试集测试其性能。 随机森林跟AdaBoost 分类器可直接使用sklearn 包中的实现。
撰写技术报告(30 分) 以科技论文的形式撰写assignment 的技术报告。 • 自行设计实验,达到以下目的 – 对比两个模型在同样数据上的分类、回归的性能(使用合适的指标),并对结果进行分 析; – 对于回归任务,体现不同大小的训练集对回归器性能的影响(无需交叉验证); • 实验部分应对数据集进行介绍,参考文献中给出该数据集的原始出处并在报告正文中第一次 出现给数据集的地方添加对文献的引用; 1 • 对实验结果的呈现,必须以文字形式进行阐述、解释或者说明,不能只是简单地展示结果的 图,否则会减分;调整图的大小,使之清晰美观,否则会减分; • 报告应以正规的书面语言进行客观的阐述,切勿使用口语化的表达方式或使用随意的网络用 语; • 插图应使用矢量图,图、表要添加编号与标题,并在正文中引用其编号; • 报告中对使用的算法应引用其出处的参考文献,引用格式为用方括号括起来的上标数字形式, 按引用的次序依次顺序编号,并在报告末尾添加“参考文献”一节;每一条文献条目中至少 应包括作者名,文章标题,期刊名,期号,卷号,出版年月,pp:页码范围,DOI 号或官网的 URL。
必须提交的材料 • 下载的数据集:各个数据集各自存入一个文件中,文件名为程序中使用该数据集时的名称; • python 的源程序:每个源程序存入一个文件,文件名能体现其作用; • pdf 版本的技术报告; • 以上三部分压缩成一个压缩包,以学号+ 姓名对压缩包进行命名。
2021-12-17 14:03:10
2.79MB
python