兰州大学数据挖掘与大数据分析 Assignment 3.zip

上传者: 54707168 | 上传时间: 2021-12-17 14:03:10 | 文件大小: 2.79MB | 文件类型: ZIP
兰州大学数据挖掘与大数据分析 Assignment 3 数据集(10 分) • 从UCI dataset repository 中下载以下数据集 –(5 分)IRIS –(5 分)Breast Cancer Wisconsin (Diagnostic) Data Set 下载以后,仔细阅读数据集的使用说明,理解其用途及每一列数据的含义。 随机森林和AdaBoost(60 分) •(30 分)分类任务:分别对两个数据集按照自己设定的比例进行训练集、测试集的划分,使 用训练集分别训练随机森林模型跟AdaBoost(基分类器采用决策树模型) 分类器,并分别用测 试集测试其性能; •(30 分)回归任务:忽略两个数据集中的类别属性,从其余属性中任选一个作为回归任务的 目标属性;分别对两个数据集按照自行设定的比例进行训练集、测试集的划分,使用训练集 分别训练随机森林跟AdaBoost 回归器,并分别用测试集测试其性能。 随机森林跟AdaBoost 分类器可直接使用sklearn 包中的实现。 撰写技术报告(30 分) 以科技论文的形式撰写assignment 的技术报告。 • 自行设计实验,达到以下目的 – 对比两个模型在同样数据上的分类、回归的性能(使用合适的指标),并对结果进行分 析; – 对于回归任务,体现不同大小的训练集对回归器性能的影响(无需交叉验证); • 实验部分应对数据集进行介绍,参考文献中给出该数据集的原始出处并在报告正文中第一次 出现给数据集的地方添加对文献的引用; 1 • 对实验结果的呈现,必须以文字形式进行阐述、解释或者说明,不能只是简单地展示结果的 图,否则会减分;调整图的大小,使之清晰美观,否则会减分; • 报告应以正规的书面语言进行客观的阐述,切勿使用口语化的表达方式或使用随意的网络用 语; • 插图应使用矢量图,图、表要添加编号与标题,并在正文中引用其编号; • 报告中对使用的算法应引用其出处的参考文献,引用格式为用方括号括起来的上标数字形式, 按引用的次序依次顺序编号,并在报告末尾添加“参考文献”一节;每一条文献条目中至少 应包括作者名,文章标题,期刊名,期号,卷号,出版年月,pp:页码范围,DOI 号或官网的 URL。 必须提交的材料 • 下载的数据集:各个数据集各自存入一个文件中,文件名为程序中使用该数据集时的名称; • python 的源程序:每个源程序存入一个文件,文件名能体现其作用; • pdf 版本的技术报告; • 以上三部分压缩成一个压缩包,以学号+ 姓名对压缩包进行命名。

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明