在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 7.1.1缺失值处理 从统计上说,缺失的数据可能会产生有偏估计,从而使样本数据不能很好地代表总体,而现实中绝大部分数据都包含缺失值,因此如何处理缺失值很很重要。 一般来说,缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。在对是否存在缺失值进行判断之后需要进行缺失值处理,常用的方法有删除法、替换法、插补法等。 (1)删除法 删除法是最简单缺失值处理方法,根据数据处理的不同角度可分为删除观测样本、删除 变量两种。 (2)替换法 变量按属性可分为数值型和非数值型,二者的处理办法不同:如果缺失值所在变量为数 值型的,一般用该变量在其他所有对象的取值的均值来替换变量的缺失值;如果为非数值型变量,则使用该变量其他全部有效观测值的中位数或者众数进行替换。 (3)插补法 删除法虽然简单易行,但会存在信息浪费的问题且数据结构会发生变动,以致最后得到 有偏的统计结果,替换法也有类似问题。在面对缺失值问题,常用的插补法有回归插补、多重插补等。回归插补法利用回归模型,将需要插值补缺的变量作为因变量,其他相关变量作为自变量,通过回归函数lm()预测出因变量的值对缺失变量进行补缺;多重插补法的原理是从一个包含缺失的数据集中生成一组完整的数据,进行多次,从而产生缺失值的一个随机样本。 7.1.2异常值处理 在异常值的处理之前需要对异常值进行识别,一般多采用单变量散点图或是箱形图可以达到目的。 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。
8.1 理解关联规则分析 下面通过餐饮企业中的一个实际情景引出关联规则的概念。客户在餐厅点餐时,面对菜单中大量的菜品信息,往往无法迅速找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的荤素和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系(负关联),这些规律都隐藏在大量的历史菜单数据中,如果能够通过数据挖掘发现客户点餐的规则,就可以快速识别客户的口味,当他下了某个菜品的订单时推荐相关联的菜品,引导客户消费,提高顾客的就餐体验和餐饮企业的业绩水平。 关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包=>牛奶”,其中面包称为规则的前项,而牛奶称为后项。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体的利润。 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
2021-08-08 13:07:22 716KB 数据挖掘 数据分析 RapidMiner 关联分析
9.1 理解聚类分析 餐饮企业经常会碰到这样的问题: 1) 如何通过餐饮客户消费行为的测量,进一步评判餐饮客户的价值和对餐饮客户进行细分,找到有价值的客户群和需关注的客户群? 2) 如何合理对菜品进行分析,以便区分哪些菜品畅销毛利又高,哪些菜品滞销毛利又低? 餐饮企业遇到的这些问题,可以通过聚类分析解决。 9.1.1 常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9-1所示。
2021-08-08 13:07:22 668KB 数据挖掘 RapidMiner 聚类分析 K-Means
回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计算起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下: 一元线性回归线性回归多元线性回归多个因变量与多个自变量的回归如何从数据推断回归模型基本假设的合理性基本假设不成立时如何对数据进行修正回归诊断判断回归方程拟合的效果选择回归函数的形式自变量选择的标准回归变量选择逐步回归分析法回归分析偏最小二乘回归参数估计方法改进岭回归主成分回归一元非线性回归非线性回归分段回归多元非线性回归自变量含有含有定性变量的回归定性变量的情况因变量含有定性变量的情况 在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。
2021-08-08 13:07:21 543KB 数据挖掘 RapidMiner 线性回归 逻辑回归
11.1 理解决策树 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。 决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。
2021-08-08 13:07:21 761KB 数据挖掘 RapidMiner 数据分析 决策树
12.1 应用场景  垃圾、邮件检测  语言种类检测  客户反馈分析、微博评论情感分析  … 12.2学习目标 在学习完本章后,您应能够:  解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式,以便进行文本挖掘。  连接至文本,并将其导入为文本挖掘模型的数据来源。  在 RapidMiner 中开发一个文本挖掘模型,其中包括常用的文本操作符,例如tokenization、stop word filtering等。  对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。 12.3文本挖掘概览 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾和我们实际想阅读的之间的区别。然后我们将应用此学习到的模型到新的中,来确定其是否为垃圾。垃圾是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾分类的相同的技术可以在许多其他文本挖掘领域中使用。  以下为我们主要执行的挖掘步骤: – 安装文本挖掘插件 – 加载数据集到 RapidMiner中 – 检查这些文本 – 处理这些文本 – 使用 Naïve Bayes 算法构造一个文本分类模型 – 验证模型 – 应用模型到未分类的数据中
2021-08-08 13:07:20 443KB 数据挖掘 数据分析 RapidMiner 文本挖掘
13.1 应用场景  舆情分析、企业竞争对手分析  互联网专业信息收集  … 13.2 学习目标 在学习完本章后,您应能够:   解释什么是web挖掘、如何使用web挖掘,以及使用web挖掘有哪些好处。   识别web挖掘可能采取的各种格式,以便进行web挖掘。   连接至web url,并将其导入为web挖掘模型的数据来源。   在 RapidMiner 中开发一个web挖掘模型   对web挖掘结果进行信息抽取、转储。 13.3 概览 本章介绍web挖掘。由于大部分交流信息多数出现在互联网上,且以文本格式保存,web挖掘是挖掘中的一个重要领域。我们将建立一个RapidMiner挖掘流程,来学习如何通过连接到生物医学期刊网站,获取蛋白质相关论文的web数据,从中找到用户关心的某些信息内容:某蛋白质近年来论文发表数量趋势,及该蛋白质论文的作者、联系邮箱、通讯地址等信息(对于蛋白质生产厂商,他一定关心如何找到这些信息进行广告投放)。我们会利用web挖掘技术、结合文本挖掘技术,把这些信息从互联网上获取存储到本地磁盘,然后利用web挖掘、文本挖掘技术对这些信息进行拆分解析,将有用信息存储到mysql数据库中。  以下为我们主要执行的挖掘步骤: – 安装web挖掘插件 – 加载网站url到 RapidMiner web挖掘算子中 – 获取并保存web页面到本地磁盘
2021-08-08 13:07:20 741KB 数据分析 RapidMiner 数据挖掘 Web挖掘
14.1 推荐系统应用场景  亚马逊商城、淘宝、京东等等电商网站的(您可能感兴趣的图书、音像、服装、电子设备…)物品投放  QQ(您可能认识的)联系人推荐  新闻站点相关题材内容资讯展示 我们每天都面临着大量事件的抉择,在没有有效辅助决策信息之前,从其他用户反馈信息中了解某事物的特性,可以加快我们抉择的过程。如:我们到没有去过的外地旅游之前,选择哪家餐馆就餐、哪些景点观光、哪些酒店入住这些问题都可以通过参考推荐系统提供的信息得到很好的解答。 企业通过使用推荐系统,可增强用户体验、实现更好的交叉销售、提高营业额度。 14.2 学习目标 在学习完本节课后,您应能够:  解释什么是推荐系统、如何使用推荐系统。  识别推荐系统挖掘可能采取的数据格式,以便进行推荐系统构建。  在 RapidMiner 中开发推荐系统。 14.3 安装推荐系统插件  为了完成推荐系统操作,您需要确认已经安装了推荐系统插件,您可用以下步骤确认是否已经安装推荐系统插件: —打开RapidMiner,在主菜单点击 Help > Manage Extensions —确认Recommender Extension已经显示在列表中,被选中,我们将使用5.1.1版本的推荐系统插件。  如果您还没有安装推荐系统插件,您可以按以下步骤完成安装: —如果您使用windows系统,确认您以Administrator权限的用户登录 —在主菜单上点击 Help>Update and Extensions (Marketplace)… —在 search 标签中输入搜索关键字 Recommender,在结果列表中 点击选择Recommender
2021-08-08 13:07:19 350KB 数据分析 数据挖掘 RapidMiner 推荐系统
15.1 模型评估与优化解决的问题  如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响?  对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什么选择模型A,而不是模型B?凭经验?还是。。。各个模型的特性指标能否横向可视化对比?  系统能否从多个可选模型中自动为我们推荐一个最好的模型算法?  某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法有哪些?  在保证预测准确性的同时,能否提高挖掘流程执行的速度? 15.2 预测模型算法评价指标 模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。 (1) 绝对误差与相对误差 设Y表示实际值,Yˆ表示预测值,则称E为绝对误差(AbsoluteError),计算公式如下: (2) 平均绝对误差 平均绝对误差(MeanAbsoluteError , MAE)定义如下:
2021-08-08 13:07:19 550KB RapidMiner 数据分析 数据挖掘 模型评估
16.1 时序模式 就餐饮企业而言,经常会碰到这样的问题: 由于餐饮行业是生产和销售同时进行的,因此销售预测对于餐饮企业十分必要。如何基于菜品历史销售数据,做好餐饮销售预测?以便减少菜品脱销现象和避免因备料不足而造成的生产延误,从而减少菜品生产等待时间,提供给客户更优质的服务,同时可以减少安全库存量,做到生产准时制,降低物流成本。 餐饮销售预测可以看作是基于时间序列的短期数据预测,预测对象为具体菜品销售量。 常用按时间顺序排列的一组随机变量12,,,tXXX 来表示一个随机事件的时间序列,简记为{}tX;用12,,,nxxx或{,1,2,,}txtn=表示该随机序列的n个有序观察值,称之为序列长度为n的观察值序列。 本章应用时间序列分析的目的就是给定一个已被观测了的时间序列,预测该序列的未来值。 16.1.1时间序列算法 常用的时间序列模型见表16-1。
2021-08-08 13:07:18 722KB RapidMiner 数据分析 数据挖掘 时间序列