经过前面几章的学习,我们已经知道了数据挖掘的基本流程,在真实的数据挖掘工作中,算法模型的建立所许付出的时间只占一小部分,数据的清洗、转换、加工部分往往占据很大一部分,在这一章中,我们将在学习前面数据处理的基础上,详细介绍数据集处理的高级部分。 17.1宏 在RapidMiner中,宏的定义有几种方式: 第一种:Context标签 在标签中有Macro宏的设置栏,点击添加按钮,我们可以对宏的名称及数值进行设置,如图17.1.
1.1 离群点检测 就餐饮企业而言,经常会碰到这样的问题: 1) 如何根据客户的消费记录检测是否为异常刷卡消费? 2) 如何检测是否有异常订单? 这一类异常问题可以通过离群点检测解决。 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。 在数据的散布图中,如图18-1离群点远离其它数据点。因为离群点的属性值明显偏离期望的或常见的属性值,所以离群点检测也称偏差检测。 离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务中、网络入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动员。 (1) 离群点的成因 离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。 (2) 离群点的类型 对离群点的大致分类见表18-1:
2021-08-08 13:07:17 741KB RapidMiner 数据挖掘 数据分析 异常检测
19.1背景与挖掘目标 传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等手段来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。目前很多供电局主要通过营销稽查人员、用电检查人员和计量工作人员利用计量异常报警功能和电能量数据查询功能开展用户用电情况的在线监控工作,通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测窃漏电情况和发现计量装置的故障。根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,构建基于指标加权的用电异常分析模型,实现检查客户是否存在窃电、违章用电及计量装置故障等。 以上防窃漏电的诊断方法,虽然能获得用电异常的某些信息,但由于终端误报或漏报过多,无法达到真正快速精确定位窃漏电嫌疑用户的目的,往往令稽查工作人员无所适从。而且在采用这种方法建模时,模型各输入指标权重的确定需要用专家的知识和经验,具有很大的主观性,存在明显的缺陷,所以实施效果往往不尽如人意。 现有的电力计量自动化系统能够采集到各相电流、电压、功率因数等用电负荷数据以及用电异常等终端报警信息。异常告警信息和用电负荷数据能够反映用户的用电情况,同时稽查工作人员也会通过在线稽查系统和现场稽查来查找出窃漏电用户,并录入系统。若能通过这些数据信息提取出窃漏电用户的关键特征,构建窃漏电用户的识别模型,就能自动检查判断用户是否存在窃漏电行为。 表 19-1给出了某企业大用户的用电负荷数据,采集时间间隔为15分钟,即0.25小时,可进一步计算该大用户的用电量, 表 19-2给出了该企业大用户的终端报警数据,其中与窃漏电相关的报警能较好的识别用户的窃漏电行为,表 19-3给出了某企业大用户违约、窃电处理通知书,里面记录了用户的用电类别和窃电时间。
2021-08-08 13:07:17 853KB 数据分析 数据挖掘 RapidMiner 窃电分析
20.1背景与挖掘目标 信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。客户关系管理的关键问题是客户分类,通过客户分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。 面对激烈的市场竞争,各个航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。目前该航空公司已积累了大量的会员档案信息和其乘坐航班记录,经加工后得到如表20-1所示的数据信息。
2021-08-08 13:07:16 736KB 数据挖掘 数据分析 RapidMiner 客户分析
与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9 1所示。
2021-06-05 21:22:58 362KB 数据挖掘 大数据 Rapidminer
1
Depth for Data Scientists, Simplified for Everyone Else
2021-06-03 09:02:16 272.74MB rapidminer
压缩文件,包含十几篇RapidMiner的实例,有详细的讲解,跟着动手做一做,既能理解算法,又能直接收获实战技能。
2021-05-26 18:45:30 19.1MB RapidM 数据挖掘 实战 数据分析
1
RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。 RapidMiner解决方案覆盖了各个领域,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。
2021-03-26 14:40:56 20.91MB rapidminer 教程
1
RapidMiner数据分析与挖掘实战_中文版
2021-03-19 09:12:49 19.09MB RapidMiner
1
决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。
2020-01-10 03:09:07 1.4MB 数据挖掘 大数据 Rapidminer
1