15.1 模型评估与优化解决的问题  如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响?  对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什么选择模型A,而不是模型B?凭经验?还是。。。各个模型的特性指标能否横向可视化对比?  系统能否从多个可选模型中自动为我们推荐一个最好的模型算法?  某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法有哪些?  在保证预测准确性的同时,能否提高挖掘流程执行的速度? 15.2 预测模型算法评价指标 模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。 (1) 绝对误差与相对误差 设Y表示实际值,Yˆ表示预测值,则称E为绝对误差(AbsoluteError),计算公式如下: (2) 平均绝对误差 平均绝对误差(MeanAbsoluteError , MAE)定义如下:
2021-08-08 13:07:19 550KB RapidMiner 数据分析 数据挖掘 模型评估
16.1 时序模式 就餐饮企业而言,经常会碰到这样的问题: 由于餐饮行业是生产和销售同时进行的,因此销售预测对于餐饮企业十分必要。如何基于菜品历史销售数据,做好餐饮销售预测?以便减少菜品脱销现象和避免因备料不足而造成的生产延误,从而减少菜品生产等待时间,提供给客户更优质的服务,同时可以减少安全库存量,做到生产准时制,降低物流成本。 餐饮销售预测可以看作是基于时间序列的短期数据预测,预测对象为具体菜品销售量。 常用按时间顺序排列的一组随机变量12,,,tXXX 来表示一个随机事件的时间序列,简记为{}tX;用12,,,nxxx或{,1,2,,}txtn=表示该随机序列的n个有序观察值,称之为序列长度为n的观察值序列。 本章应用时间序列分析的目的就是给定一个已被观测了的时间序列,预测该序列的未来值。 16.1.1时间序列算法 常用的时间序列模型见表16-1。
2021-08-08 13:07:18 722KB RapidMiner 数据分析 数据挖掘 时间序列
经过前面几章的学习,我们已经知道了数据挖掘的基本流程,在真实的数据挖掘工作中,算法模型的建立所许付出的时间只占一小部分,数据的清洗、转换、加工部分往往占据很大一部分,在这一章中,我们将在学习前面数据处理的基础上,详细介绍数据集处理的高级部分。 17.1宏 在RapidMiner中,宏的定义有几种方式: 第一种:Context标签 在标签中有Macro宏的设置栏,点击添加按钮,我们可以对宏的名称及数值进行设置,如图17.1.
1.1 离群点检测 就餐饮企业而言,经常会碰到这样的问题: 1) 如何根据客户的消费记录检测是否为异常刷卡消费? 2) 如何检测是否有异常订单? 这一类异常问题可以通过离群点检测解决。 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。 在数据的散布图中,如图18-1离群点远离其它数据点。因为离群点的属性值明显偏离期望的或常见的属性值,所以离群点检测也称偏差检测。 离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务中、网络入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动员。 (1) 离群点的成因 离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。 (2) 离群点的类型 对离群点的大致分类见表18-1:
2021-08-08 13:07:17 741KB RapidMiner 数据挖掘 数据分析 异常检测
19.1背景与挖掘目标 传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等手段来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。目前很多供电局主要通过营销稽查人员、用电检查人员和计量工作人员利用计量异常报警功能和电能量数据查询功能开展用户用电情况的在线监控工作,通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测窃漏电情况和发现计量装置的故障。根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,构建基于指标加权的用电异常分析模型,实现检查客户是否存在窃电、违章用电及计量装置故障等。 以上防窃漏电的诊断方法,虽然能获得用电异常的某些信息,但由于终端误报或漏报过多,无法达到真正快速精确定位窃漏电嫌疑用户的目的,往往令稽查工作人员无所适从。而且在采用这种方法建模时,模型各输入指标权重的确定需要用专家的知识和经验,具有很大的主观性,存在明显的缺陷,所以实施效果往往不尽如人意。 现有的电力计量自动化系统能够采集到各相电流、电压、功率因数等用电负荷数据以及用电异常等终端报警信息。异常告警信息和用电负荷数据能够反映用户的用电情况,同时稽查工作人员也会通过在线稽查系统和现场稽查来查找出窃漏电用户,并录入系统。若能通过这些数据信息提取出窃漏电用户的关键特征,构建窃漏电用户的识别模型,就能自动检查判断用户是否存在窃漏电行为。 表 19-1给出了某企业大用户的用电负荷数据,采集时间间隔为15分钟,即0.25小时,可进一步计算该大用户的用电量, 表 19-2给出了该企业大用户的终端报警数据,其中与窃漏电相关的报警能较好的识别用户的窃漏电行为,表 19-3给出了某企业大用户违约、窃电处理通知书,里面记录了用户的用电类别和窃电时间。
2021-08-08 13:07:17 853KB 数据分析 数据挖掘 RapidMiner 窃电分析
20.1背景与挖掘目标 信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。客户关系管理的关键问题是客户分类,通过客户分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。 面对激烈的市场竞争,各个航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。目前该航空公司已积累了大量的会员档案信息和其乘坐航班记录,经加工后得到如表20-1所示的数据信息。
2021-08-08 13:07:16 736KB 数据挖掘 数据分析 RapidMiner 客户分析
产品经理数据分析实战手册.pdf
2021-08-03 09:13:34 9.42MB 产品经理
1
Wireshark数据包分析实战(第2版)中文
2021-07-17 07:37:32 25.97MB wireshark 数据包分析
1
Wireshark数据包分析实战(第三版)抓包资源文件,从原书第三版提供的网站上下再的示例资源文件。
2021-07-13 16:59:32 89.75MB wireshark 数据包分析
1
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程介绍: 讲解一个真实的、复杂的大型企业级大数据项目,是Spark的大型项目实战课程。 通过本套课程的学习,可以积累大量Spark项目经验,迈入Spark高级开发行列。 课程特色: 1、项目中全面覆盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架几乎全部的初级和高级的技术点和知识点, 让学员学以致用,通过一套课程,即掌握如何将Spark所有的技术点和知识点应用在真实的项目中,来实现业务需求! 2、项目中的4个功能横块,全郃是实际企业项目中提取出来的,并进行技术整合和改良过的功能模块.全都是企业级的复杂和真实的需求,业务模块非常之复杂,绝对不是市面上的Dem级别的大数据项目能够想比拟的,学习过后,真正帮助学员增加实际 企业级项目的实战经验。 3、项目中通过实际的功能模块和业务场景,以及讲师曾经开发过的处理十亿、甚至百亿以上数据级别的SparK作业的经验积累,贯穿讲解了大量的高级复杂的性能调优技术和知识、troubleshooting解决线上报错和故障的经验、高端的全方位数据倾斜处理和解决方案.真正帮助学员掌握高精尖的Spark技术! 4、项目中采用完全还原企业大数据项目开发场景的方式来讲解,每一个业务模块的讲解都包括了需求分析、方案设计、数据设计、编码实现、功能测试、性能调优等环节,真实还原企业级大数据项目开发场景。 模块简介: 1、用户访问session分析,该模块主要是对用户访问session进行统计分析.包括session的聚合指标计算、 按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session.该模块可以让产品经理、数据分析师以及企业管理层形象地看到各种条件下的具体用户行为以及统计指标.从而对公司的产品设计以及业务发展战略做出调整.主要使用Spark Core实现. 2、页面单跳转化率统计,该模块主要是计算关键页面之间的单步跳转转化率,涉及到页面切片算法以及页面流匹配算法.该模块可以让产品经理、数据分析师以及企业管理层看到各个关键页面之间的转化率.从而对网页布局,进行更好的优化设计。主要使用Spark Core实现. 3、热门商品离线统计,该模块主要实现每天统计出各个区域的top3热门商品.然后使用Oozie进行离线统计任务的定时调度,使用Zeppeline进行数据可视化的报表展示.该模块可以让企业管理层看到公司售卖的 商品的整体情况,从而对公司的商品相关的战略进行调螫.主要使用Spark SQL实现。 4、广告流量实时统计.该模块负责实时统计公司的广告流量.包括广告展现流量和广告点击流量,实现动态黑名单机制以及黑名单过滤,实现滑动窗口内的各城市的广告展现流立和广告点击流直的统计,实现 每个区域诲个广告的点击流置实时统计,实现每个区域top3点击量的广告的统计,主要使用Spark Streaming实现.