表格,数据,文本集,日志,网址,测量值---这些以及其它类似的信息是每一个数据挖掘流程在一开始就要用到的。准备好的数据会被转化并合并,最后您会得到一个新的或是以不同方式显示出来的数据、模型或报告。在这一章我们会为您介绍如何用RapidMiner Studio处理这些信息。 5.1RapidMiner Studio的资源库 一旦您收集的流程及相关文件超过了一定的大小,您会发现RapidMiner会智能化的以一个一致的结构化的方式存储这些信息。其中一种可能性是以文件夹的形式存储流程。文件夹会根据流程分类,每一个流程的文件夹有一个目录,目录里面包含了输出数据,中间结果,报告等信息。 系统化、结构化地存储流程是个明智的选择,只有在极少的情况下我们会推荐选用普通的文件夹系统存储流程,因为普通文件夹存储系统很难满足数据挖掘方案的需求。因为不同的原因,例如机密性或者存储空间有限,会导致不能在本地电脑上创建文档。如果要在一个远程服务器上执行一个在本地电脑上创建的流程,就需要进行手动操作,例如复制流程及调整路径。创建流程,操作数据及评估分析结果都需要一个外部的权限和版本管理。以不同的格式存储的文件需要正确的参数设置,例如分隔符、新下载数据的代码。中间结果和流程变量的数量增长很快,这意味着您很容易就会无法跟踪这些数据。下载和查看数据,重新了解一下概况,这可能需要一个很长的流程甚至需要运行一个外部应用。文件注解能够让您更容易的掌控这些数据信息,但是普通的文件系统不支持这个功能。 RapidMiner应对所有这些问题的方法是资源库,它存储了所有的数据和流程。虽然我们也能从资源库以外的地方提取数据到流程中,但是外部提取数据需要运行外部流程等,而资源库可以为您提供很多便利:  结构化的数据、流程、分析结果和报告的存储位置说明了它们间相互关系,这些相互关系完全透明化的展现在用户面前。  不需要其他设置,您就可以打开或下载文件。只需点击一下,您就可以打开、查看数据或提取数据到流程中。您能够看到存储数据的概况,在不需要逐个打开这个文件的前提下,您可以随时为这些数据赋予特征、做上标记。
2021-08-08 13:07:23 528KB 数据挖掘 数据分析 RapidMiner 数据管理
根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性? 通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。 本章从数据质量分析和数据特征分析两个角度对数据进行探索。 6.1 数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括:  缺失值  异常值  不一致的值  重复数据及含有特殊符号(如#、¥、*)的数据 本小节将主要对数据中的缺失值、异常值和一致性进行分析。 6.1.1缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产生的原因及影响等方面展开分析。 (1) 缺失值产生的原因 1) 有些信息暂时无法获取,或者获取信息的代价太大。 2) 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些人为因素而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的
2021-08-08 13:07:23 657KB 数据挖掘 数据分析 RapidMiner 数据探索
在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 7.1.1缺失值处理 从统计上说,缺失的数据可能会产生有偏估计,从而使样本数据不能很好地代表总体,而现实中绝大部分数据都包含缺失值,因此如何处理缺失值很很重要。 一般来说,缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。在对是否存在缺失值进行判断之后需要进行缺失值处理,常用的方法有删除法、替换法、插补法等。 (1)删除法 删除法是最简单缺失值处理方法,根据数据处理的不同角度可分为删除观测样本、删除 变量两种。 (2)替换法 变量按属性可分为数值型和非数值型,二者的处理办法不同:如果缺失值所在变量为数 值型的,一般用该变量在其他所有对象的取值的均值来替换变量的缺失值;如果为非数值型变量,则使用该变量其他全部有效观测值的中位数或者众数进行替换。 (3)插补法 删除法虽然简单易行,但会存在信息浪费的问题且数据结构会发生变动,以致最后得到 有偏的统计结果,替换法也有类似问题。在面对缺失值问题,常用的插补法有回归插补、多重插补等。回归插补法利用回归模型,将需要插值补缺的变量作为因变量,其他相关变量作为自变量,通过回归函数lm()预测出因变量的值对缺失变量进行补缺;多重插补法的原理是从一个包含缺失的数据集中生成一组完整的数据,进行多次,从而产生缺失值的一个随机样本。 7.1.2异常值处理 在异常值的处理之前需要对异常值进行识别,一般多采用单变量散点图或是箱形图可以达到目的。 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。
8.1 理解关联规则分析 下面通过餐饮企业中的一个实际情景引出关联规则的概念。客户在餐厅点餐时,面对菜单中大量的菜品信息,往往无法迅速找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的荤素和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系(负关联),这些规律都隐藏在大量的历史菜单数据中,如果能够通过数据挖掘发现客户点餐的规则,就可以快速识别客户的口味,当他下了某个菜品的订单时推荐相关联的菜品,引导客户消费,提高顾客的就餐体验和餐饮企业的业绩水平。 关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包=>牛奶”,其中面包称为规则的前项,而牛奶称为后项。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体的利润。 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
2021-08-08 13:07:22 716KB 数据挖掘 数据分析 RapidMiner 关联分析
9.1 理解聚类分析 餐饮企业经常会碰到这样的问题: 1) 如何通过餐饮客户消费行为的测量,进一步评判餐饮客户的价值和对餐饮客户进行细分,找到有价值的客户群和需关注的客户群? 2) 如何合理对菜品进行分析,以便区分哪些菜品畅销毛利又高,哪些菜品滞销毛利又低? 餐饮企业遇到的这些问题,可以通过聚类分析解决。 9.1.1 常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9-1所示。
2021-08-08 13:07:22 668KB 数据挖掘 RapidMiner 聚类分析 K-Means
回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计算起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下: 一元线性回归线性回归多元线性回归多个因变量与多个自变量的回归如何从数据推断回归模型基本假设的合理性基本假设不成立时如何对数据进行修正回归诊断判断回归方程拟合的效果选择回归函数的形式自变量选择的标准回归变量选择逐步回归分析法回归分析偏最小二乘回归参数估计方法改进岭回归主成分回归一元非线性回归非线性回归分段回归多元非线性回归自变量含有含有定性变量的回归定性变量的情况因变量含有定性变量的情况 在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。
2021-08-08 13:07:21 543KB 数据挖掘 RapidMiner 线性回归 逻辑回归
11.1 理解决策树 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。 决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。
2021-08-08 13:07:21 761KB 数据挖掘 RapidMiner 数据分析 决策树
12.1 应用场景  垃圾、邮件检测  语言种类检测  客户反馈分析、微博评论情感分析  … 12.2学习目标 在学习完本章后,您应能够:  解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式,以便进行文本挖掘。  连接至文本,并将其导入为文本挖掘模型的数据来源。  在 RapidMiner 中开发一个文本挖掘模型,其中包括常用的文本操作符,例如tokenization、stop word filtering等。  对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。 12.3文本挖掘概览 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾和我们实际想阅读的之间的区别。然后我们将应用此学习到的模型到新的中,来确定其是否为垃圾。垃圾是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾分类的相同的技术可以在许多其他文本挖掘领域中使用。  以下为我们主要执行的挖掘步骤: – 安装文本挖掘插件 – 加载数据集到 RapidMiner中 – 检查这些文本 – 处理这些文本 – 使用 Naïve Bayes 算法构造一个文本分类模型 – 验证模型 – 应用模型到未分类的数据中
2021-08-08 13:07:20 443KB 数据挖掘 数据分析 RapidMiner 文本挖掘
13.1 应用场景  舆情分析、企业竞争对手分析  互联网专业信息收集  … 13.2 学习目标 在学习完本章后,您应能够:   解释什么是web挖掘、如何使用web挖掘,以及使用web挖掘有哪些好处。   识别web挖掘可能采取的各种格式,以便进行web挖掘。   连接至web url,并将其导入为web挖掘模型的数据来源。   在 RapidMiner 中开发一个web挖掘模型   对web挖掘结果进行信息抽取、转储。 13.3 概览 本章介绍web挖掘。由于大部分交流信息多数出现在互联网上,且以文本格式保存,web挖掘是挖掘中的一个重要领域。我们将建立一个RapidMiner挖掘流程,来学习如何通过连接到生物医学期刊网站,获取蛋白质相关论文的web数据,从中找到用户关心的某些信息内容:某蛋白质近年来论文发表数量趋势,及该蛋白质论文的作者、联系邮箱、通讯地址等信息(对于蛋白质生产厂商,他一定关心如何找到这些信息进行广告投放)。我们会利用web挖掘技术、结合文本挖掘技术,把这些信息从互联网上获取存储到本地磁盘,然后利用web挖掘、文本挖掘技术对这些信息进行拆分解析,将有用信息存储到mysql数据库中。  以下为我们主要执行的挖掘步骤: – 安装web挖掘插件 – 加载网站url到 RapidMiner web挖掘算子中 – 获取并保存web页面到本地磁盘
2021-08-08 13:07:20 741KB 数据分析 RapidMiner 数据挖掘 Web挖掘
14.1 推荐系统应用场景  亚马逊商城、淘宝、京东等等电商网站的(您可能感兴趣的图书、音像、服装、电子设备…)物品投放  QQ(您可能认识的)联系人推荐  新闻站点相关题材内容资讯展示 我们每天都面临着大量事件的抉择,在没有有效辅助决策信息之前,从其他用户反馈信息中了解某事物的特性,可以加快我们抉择的过程。如:我们到没有去过的外地旅游之前,选择哪家餐馆就餐、哪些景点观光、哪些酒店入住这些问题都可以通过参考推荐系统提供的信息得到很好的解答。 企业通过使用推荐系统,可增强用户体验、实现更好的交叉销售、提高营业额度。 14.2 学习目标 在学习完本节课后,您应能够:  解释什么是推荐系统、如何使用推荐系统。  识别推荐系统挖掘可能采取的数据格式,以便进行推荐系统构建。  在 RapidMiner 中开发推荐系统。 14.3 安装推荐系统插件  为了完成推荐系统操作,您需要确认已经安装了推荐系统插件,您可用以下步骤确认是否已经安装推荐系统插件: —打开RapidMiner,在主菜单点击 Help > Manage Extensions —确认Recommender Extension已经显示在列表中,被选中,我们将使用5.1.1版本的推荐系统插件。  如果您还没有安装推荐系统插件,您可以按以下步骤完成安装: —如果您使用windows系统,确认您以Administrator权限的用户登录 —在主菜单上点击 Help>Update and Extensions (Marketplace)… —在 search 标签中输入搜索关键字 Recommender,在结果列表中 点击选择Recommender
2021-08-08 13:07:19 350KB 数据分析 数据挖掘 RapidMiner 推荐系统