只为小站
首页
域名查询
文件下载
登录
数据挖掘实验报告
.doc
《数据挖掘》 Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
数据挖掘实验报告
主要探讨了如何使用Weka这一数据挖掘工具对乳腺癌数据集进行分类和分析。实验的目标是基于UCI机器学习库中的Breast Cancer Wisconsin (Original)数据集,利用Weka的分类算法进行预测,并对不同算法的性能进行比较。Weka是由新西兰怀卡托大学开发的开源软件,它支持多种操作系统,并提供了丰富的数据预处理、学习算法和评估工具。 实验环境主要涉及Weka平台和乳腺癌数据集。乳腺癌数据集包含了11个属性,包括丛厚度、细胞大小均匀性、细胞形状均匀性等,以及一个分类标签,表示肿瘤是良性还是恶性。实验者需要先对数据进行预处理,例如在Excel中整理数据,并将其转换为Weka可读的CSV格式。 在数据预处理阶段,首先需要了解每个属性的意义,然后导入数据,通常需要手动添加属性名称。由于Weka需要ARFF格式的数据,因此需要将CSV文件转换为ARFF。这可以通过Weka的命令行工具或图形用户界面(GUI)实现,比如在“Explorer”模块中选择打开CSV文件,系统会自动将其转换为ARFF格式。 数据分析阶段,实验者可能应用了Weka中的一系列分类算法,如决策树、贝叶斯网络、随机森林等,并对这些算法的性能进行了评估。性能比较通常包括准确率、召回率、F1分数等指标,同时通过绘制混淆矩阵和ROC曲线来直观地展示模型的优劣。此外,实验可能还涉及到训练集大小对模型性能的影响,通过改变训练集的数量,观察并比较不同规模训练集下的分类效果。 通过这样的实验,可以学习到数据挖掘的基本流程,包括数据清洗、特征工程、模型构建和评估。同时,还能掌握Weka工具的使用,理解不同分类算法的工作原理和适用场景。实验报告最后会总结实验结果,提出可能的改进策略,例如特征选择、参数调优等,以提高模型的预测能力。这样的实践对于理解数据挖掘技术在实际问题中的应用具有重要意义。
2024-07-13 18:13:04
987KB
文档资料
1
数据仓库与
数据挖掘实验报告
.doc
一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的 使用。 内容: 将创建一个数据挖掘模型以训练销售数据,并使用"Microsoft 决策树"算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置 为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将 使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模 式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中 遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成 后,应根据实验情况写出实验报告。 二、实验原理及基本技术路线图(方框原理图或程序流程图) 关联分析:关联分析是从数据库中发现知识的一类重要方法。 时序模式:通过时间序列搜索出重复发生概率较高的模式。 分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的 整体信息,既该类的内涵描述,一般用规则或决策树模式表示。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等) 创建 Analysis Services 项目 1. 打开 Business Intelligence Development Studio。 2. 在"文件"菜单上,指向"新建",然后选择"项目"。 3. 确保已选中"模板"窗格中的"Analysis Services 项目"。 4. 在"名称"框中,将新项目命名为 AdventureWorks。 5. 单击"确定"。 更改存储数据挖掘对象的实例 1. 在 Business Intelligence Development Studio 的"项目"菜单中,选择"属性"。 2. 在"属性页"窗格的左侧,单击"部署"。 3. 在"目标"选项部分,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。单击"确定"。 创建数据源 1. 在解决方案资源管理器中,右键单击"数据源"文件夹,然后选择"新建数据源"。 系统将打开数据源向导。 2. 在"欢迎使用数据源向导"页面中,单击"下一步"按钮。 3. 在"选择如何定义连接"页上,单击"新建"向 Adventure Works 数据库中添加连接。 系统将打开"连接管理器"对话框。 4. 在"连接管理器"的"提供程序"列表中,选择"本机 OLE DB\Microsoft OLE DB Provider for SQL Server"。 5. 在"服务器名称"列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。 6. 在"登录到服务器"组中,选择身份验证方法,并输入凭据。 7. 在"选择或输入数据库名称"列表中,选择 AdventureWorksDW,再单击"确定"按钮。 8. 单击"下一步"按钮进入向导的下一页。 9. 在"模拟信息"页中,选择"使用服务帐户",再单击"下一步"。 10. 请注意,在"完成向导"页中,数据源名称默认为 Adventure Works DW。 11. 单击"完成"。 新的数据源 Adventure Works DW 将显示在解决方案资源管理器的"数据源"文件夹中。 创建数据源视图 1. 在解决方案资源管理器中,右键单击"数据源视图",选择"新建数据源视图"。 系统将打开数据源视图向导。 2. 在"欢迎使用数据源视图向导"页上,单击"下一步"。 3. 在"选择数据源"页的"关系数据源"下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击"下一步"。 若要创建新数据源,请单击"新建数据源",启动数据源向导。 4. 在"选择表和视图"页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源 视图中: dbo.ProspectiveBuyer dbo.vAssocSeqLineItems dbo.vAssocSeqOrders dbo.vTargetMail dbo.vTimeSeries 5. 单击"下一步"。 6. 在"完成向导"页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击"完成"。 系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。 创建用于目标邮件方案的挖掘结构 1. 在解决方案资源管理器中,右键单击"
2022-12-29 19:21:59
1.42MB
文档资料
1
数据挖掘实验报告
1
1.加强对 Apriori 算法的理解 2.锻炼分析问题、解决问题并动手实践的能力 1.看懂 Apriori 算法的基本思想 2.上网查阅相关资料
2022-08-03 18:00:48
456KB
数据挖掘
1
机器学习与
数据挖掘实验报告
.7z
机器学习与
数据挖掘实验报告
.7z
2022-07-02 11:04:34
1.49MB
机器学习与数据挖掘实验报告.7z
数据仓库与
数据挖掘实验报告
-.docx
数据仓库与
数据挖掘实验报告
2022-05-21 18:04:10
2.1MB
数据仓库
数据挖掘
文档资料
人工智能
数据挖掘实验报告
使用分类回归树、支持向量机、人工神经网络等模型对GOODS1n中增加的increase((After - Before) / Before * 100.0)字段进行预测,与原值进行比较分析各种算法预测的准确性。
2021-12-22 15:41:23
553KB
回归树等
1
《数据挖掘》实验报告(共三个).docx
《数据挖掘》实验报告(共三个) 实验1:基于UCI soybean Dataset的分类任务 实验2:基于UCI Groceries Dataset的关联分析任务 实验3:基于PACS RAW Labeled Dataset的聚类任务
2021-12-14 11:05:44
961KB
数据挖掘
python
数据挖掘实验报告
-数据预处理.docx
数据挖掘实验报告
一 数据预处理 姓名李圣杰 班级计算机1304 学号02 一 实验目的 学习均值平滑中值平滑边界值平滑的基本原理 掌握链表的使用方法 掌握文件读取的方法 二 实验设备 PC台dev-c++ 三 实验内容 数据平滑 假定用于分析的数据包含届性 age数据元组中age的值如下(按递增序) 13, 15, 16, 16, 19, 20, 20, 21,22, 22, 25, 25, 2
2021-12-09 12:31:52
47KB
文档
互联网
资源
西电
数据挖掘实验报告
与ppt
包含了西电数据挖掘的全部课程ppt和试验报告
2021-10-08 16:57:37
4.35MB
西电数据挖掘实验报告
1
数据挖掘实验报告
.pdf
数据挖掘实验报告
.pdf
2021-07-08 19:06:08
366KB
数据挖掘
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
基于Python网络爬虫毕业论文.doc
芯片验证漫游指南以及源代码.zip
机械臂碰撞检测 八组逆解碰撞检测 机械臂避障路径规划
C4.5决策树算法的Python代码和数据样本
多机器人编队及避障仿真算法.zip
夏天IC助手1.8你们懂的
韦来生《数理统计》课后习题与答案
得到品控手册7.0.pdf
CNN卷积神经网络Matlab实现
Alternative A2DP Driver 1.0.5.1 无限制版
基于Servlet+jsp+mysql开发javaWeb学生成绩管理系统
校园网规划与设计(报告和pkt文件)
quartus II13.0器件库.zip
超大规模集成电路先进光刻理论与应用.pdf
python实现的学生信息管理系统—GUI界面版
最新下载
如何减轻变频器通讯受到的干扰?
QGraphicsItem自定义图元,拖动绘制,拖动拉伸缩放图元
CSS新世界1
CSS世界 张鑫旭 2017.12 Pg328 8元1
舵机DS3115的组成和工作原理介绍
css 揭秘 ([希] 韦鲁) 中文pdf全彩版
极域电子教室管理系统软件V2.0 2022稳定版 支持Win11
国产麒麟操作系统离线一键升级openssh版本以及相关文件
Sliding Modes in Control and Optimization
智能变电站SCD文件的集成工具 南瑞继保设计工具
其他资源
小巧的螺旋桨设计软件
万能采集卡驱动及应用软件(适合win7\win8\win10)
STM32F103 通过SD卡IAP升级.zip
静态网页设计及实例html
VASP模拟光吸收谱
CPU支持的AVX版本检测代码
LCD12864封装Altium Designer库文件
运维服务方案
完整购物网站基于MVC模式的开发
微软官方sqlhelper类
Silvaco TCAD2014 破解所使用的Crack文件
c#微信支付、微信企业付款到个人,微信企业付款到零钱 asp.net源代码demo
Signals and Systems - 2nd Edition [Alan V Oppenheim Prentice Hall 1997]
18.4_C++_Slides.rar
用于齿轮检测的集成式测量头电路设计
ds18b20测温例程(tm4c123x)
图像处理经典测试图片
经典老鼠问题斐波那切数列
钉钉开发服务器端API注册业务事件回调接口php版demo(基于ThinkPHP5)
php 基础教程的详细ppt 讲解
华为路由器产品 日常维护和故障处理
468个emoji 48像素资源、SBUnicode编码及分类排序xml
Windows程序设计(第五版 经典) pdf