11.1 理解决策树 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。 决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。
2021-08-08 13:07:21 761KB 数据挖掘 RapidMiner 数据分析 决策树
12.1 应用场景  垃圾、邮件检测  语言种类检测  客户反馈分析、微博评论情感分析  … 12.2学习目标 在学习完本章后,您应能够:  解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式,以便进行文本挖掘。  连接至文本,并将其导入为文本挖掘模型的数据来源。  在 RapidMiner 中开发一个文本挖掘模型,其中包括常用的文本操作符,例如tokenization、stop word filtering等。  对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。 12.3文本挖掘概览 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾和我们实际想阅读的之间的区别。然后我们将应用此学习到的模型到新的中,来确定其是否为垃圾。垃圾是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾分类的相同的技术可以在许多其他文本挖掘领域中使用。  以下为我们主要执行的挖掘步骤: – 安装文本挖掘插件 – 加载数据集到 RapidMiner中 – 检查这些文本 – 处理这些文本 – 使用 Naïve Bayes 算法构造一个文本分类模型 – 验证模型 – 应用模型到未分类的数据中
2021-08-08 13:07:20 443KB 数据挖掘 数据分析 RapidMiner 文本挖掘
13.1 应用场景  舆情分析、企业竞争对手分析  互联网专业信息收集  … 13.2 学习目标 在学习完本章后,您应能够:   解释什么是web挖掘、如何使用web挖掘,以及使用web挖掘有哪些好处。   识别web挖掘可能采取的各种格式,以便进行web挖掘。   连接至web url,并将其导入为web挖掘模型的数据来源。   在 RapidMiner 中开发一个web挖掘模型   对web挖掘结果进行信息抽取、转储。 13.3 概览 本章介绍web挖掘。由于大部分交流信息多数出现在互联网上,且以文本格式保存,web挖掘是挖掘中的一个重要领域。我们将建立一个RapidMiner挖掘流程,来学习如何通过连接到生物医学期刊网站,获取蛋白质相关论文的web数据,从中找到用户关心的某些信息内容:某蛋白质近年来论文发表数量趋势,及该蛋白质论文的作者、联系邮箱、通讯地址等信息(对于蛋白质生产厂商,他一定关心如何找到这些信息进行广告投放)。我们会利用web挖掘技术、结合文本挖掘技术,把这些信息从互联网上获取存储到本地磁盘,然后利用web挖掘、文本挖掘技术对这些信息进行拆分解析,将有用信息存储到mysql数据库中。  以下为我们主要执行的挖掘步骤: – 安装web挖掘插件 – 加载网站url到 RapidMiner web挖掘算子中 – 获取并保存web页面到本地磁盘
2021-08-08 13:07:20 741KB 数据分析 RapidMiner 数据挖掘 Web挖掘
14.1 推荐系统应用场景  亚马逊商城、淘宝、京东等等电商网站的(您可能感兴趣的图书、音像、服装、电子设备…)物品投放  QQ(您可能认识的)联系人推荐  新闻站点相关题材内容资讯展示 我们每天都面临着大量事件的抉择,在没有有效辅助决策信息之前,从其他用户反馈信息中了解某事物的特性,可以加快我们抉择的过程。如:我们到没有去过的外地旅游之前,选择哪家餐馆就餐、哪些景点观光、哪些酒店入住这些问题都可以通过参考推荐系统提供的信息得到很好的解答。 企业通过使用推荐系统,可增强用户体验、实现更好的交叉销售、提高营业额度。 14.2 学习目标 在学习完本节课后,您应能够:  解释什么是推荐系统、如何使用推荐系统。  识别推荐系统挖掘可能采取的数据格式,以便进行推荐系统构建。  在 RapidMiner 中开发推荐系统。 14.3 安装推荐系统插件  为了完成推荐系统操作,您需要确认已经安装了推荐系统插件,您可用以下步骤确认是否已经安装推荐系统插件: —打开RapidMiner,在主菜单点击 Help > Manage Extensions —确认Recommender Extension已经显示在列表中,被选中,我们将使用5.1.1版本的推荐系统插件。  如果您还没有安装推荐系统插件,您可以按以下步骤完成安装: —如果您使用windows系统,确认您以Administrator权限的用户登录 —在主菜单上点击 Help>Update and Extensions (Marketplace)… —在 search 标签中输入搜索关键字 Recommender,在结果列表中 点击选择Recommender
2021-08-08 13:07:19 350KB 数据分析 数据挖掘 RapidMiner 推荐系统
15.1 模型评估与优化解决的问题  如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响?  对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什么选择模型A,而不是模型B?凭经验?还是。。。各个模型的特性指标能否横向可视化对比?  系统能否从多个可选模型中自动为我们推荐一个最好的模型算法?  某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法有哪些?  在保证预测准确性的同时,能否提高挖掘流程执行的速度? 15.2 预测模型算法评价指标 模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。 (1) 绝对误差与相对误差 设Y表示实际值,Yˆ表示预测值,则称E为绝对误差(AbsoluteError),计算公式如下: (2) 平均绝对误差 平均绝对误差(MeanAbsoluteError , MAE)定义如下:
2021-08-08 13:07:19 550KB RapidMiner 数据分析 数据挖掘 模型评估
16.1 时序模式 就餐饮企业而言,经常会碰到这样的问题: 由于餐饮行业是生产和销售同时进行的,因此销售预测对于餐饮企业十分必要。如何基于菜品历史销售数据,做好餐饮销售预测?以便减少菜品脱销现象和避免因备料不足而造成的生产延误,从而减少菜品生产等待时间,提供给客户更优质的服务,同时可以减少安全库存量,做到生产准时制,降低物流成本。 餐饮销售预测可以看作是基于时间序列的短期数据预测,预测对象为具体菜品销售量。 常用按时间顺序排列的一组随机变量12,,,tXXX 来表示一个随机事件的时间序列,简记为{}tX;用12,,,nxxx或{,1,2,,}txtn=表示该随机序列的n个有序观察值,称之为序列长度为n的观察值序列。 本章应用时间序列分析的目的就是给定一个已被观测了的时间序列,预测该序列的未来值。 16.1.1时间序列算法 常用的时间序列模型见表16-1。
2021-08-08 13:07:18 722KB RapidMiner 数据分析 数据挖掘 时间序列
经过前面几章的学习,我们已经知道了数据挖掘的基本流程,在真实的数据挖掘工作中,算法模型的建立所许付出的时间只占一小部分,数据的清洗、转换、加工部分往往占据很大一部分,在这一章中,我们将在学习前面数据处理的基础上,详细介绍数据集处理的高级部分。 17.1宏 在RapidMiner中,宏的定义有几种方式: 第一种:Context标签 在标签中有Macro宏的设置栏,点击添加按钮,我们可以对宏的名称及数值进行设置,如图17.1.
1.1 离群点检测 就餐饮企业而言,经常会碰到这样的问题: 1) 如何根据客户的消费记录检测是否为异常刷卡消费? 2) 如何检测是否有异常订单? 这一类异常问题可以通过离群点检测解决。 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。 在数据的散布图中,如图18-1离群点远离其它数据点。因为离群点的属性值明显偏离期望的或常见的属性值,所以离群点检测也称偏差检测。 离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务中、网络入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动员。 (1) 离群点的成因 离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。 (2) 离群点的类型 对离群点的大致分类见表18-1:
2021-08-08 13:07:17 741KB RapidMiner 数据挖掘 数据分析 异常检测
19.1背景与挖掘目标 传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等手段来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。目前很多供电局主要通过营销稽查人员、用电检查人员和计量工作人员利用计量异常报警功能和电能量数据查询功能开展用户用电情况的在线监控工作,通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测窃漏电情况和发现计量装置的故障。根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,构建基于指标加权的用电异常分析模型,实现检查客户是否存在窃电、违章用电及计量装置故障等。 以上防窃漏电的诊断方法,虽然能获得用电异常的某些信息,但由于终端误报或漏报过多,无法达到真正快速精确定位窃漏电嫌疑用户的目的,往往令稽查工作人员无所适从。而且在采用这种方法建模时,模型各输入指标权重的确定需要用专家的知识和经验,具有很大的主观性,存在明显的缺陷,所以实施效果往往不尽如人意。 现有的电力计量自动化系统能够采集到各相电流、电压、功率因数等用电负荷数据以及用电异常等终端报警信息。异常告警信息和用电负荷数据能够反映用户的用电情况,同时稽查工作人员也会通过在线稽查系统和现场稽查来查找出窃漏电用户,并录入系统。若能通过这些数据信息提取出窃漏电用户的关键特征,构建窃漏电用户的识别模型,就能自动检查判断用户是否存在窃漏电行为。 表 19-1给出了某企业大用户的用电负荷数据,采集时间间隔为15分钟,即0.25小时,可进一步计算该大用户的用电量, 表 19-2给出了该企业大用户的终端报警数据,其中与窃漏电相关的报警能较好的识别用户的窃漏电行为,表 19-3给出了某企业大用户违约、窃电处理通知书,里面记录了用户的用电类别和窃电时间。
2021-08-08 13:07:17 853KB 数据分析 数据挖掘 RapidMiner 窃电分析
20.1背景与挖掘目标 信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。客户关系管理的关键问题是客户分类,通过客户分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。 面对激烈的市场竞争,各个航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。目前该航空公司已积累了大量的会员档案信息和其乘坐航班记录,经加工后得到如表20-1所示的数据信息。
2021-08-08 13:07:16 736KB 数据挖掘 数据分析 RapidMiner 客户分析