R是用千统计分析、绘图的语言和操作环境。R是属千GNU系统的一个 自由、免费、原代码开放的软件。主流用户以命令行操作 也有工程 师开发了图形化界面进行操作。它是一个用千统计计算和统计制图的 优秀工具 具有以下优势: R比其他统计学或数学专用的编程语言有更强的物件导向(面向对象程 序设计)功能。 用千作矩阵运算 其分析速度可比商业软件MATLAB。 它的使用很大程度上是借助各种各样的R包的辅助。从某种程度上讲 R包就是针对千R的插件 不同的插件满足不同的需求。 RStudio窗口介绍 代码栏可以进行代码的编辑 以及打开R脚本或者txt文本。创建新的 文件可以从File -> New里选择 打开文件可以从目录File -> Open 或 者从Open Recent目录里打开最近的文件。运行文件可以选择相应的 代码 点击Run按钮。 命令控制台 代码运行后 控制台会显示相应的代码或者返回结果。 也可以在命令控制台单独输入命令 和R的命令模式相同。 其他栏是有关千R使用方面的显示栏。可以在Packages目录下进行R 包的安装以及加载(包安装好后 并不可以直接使用 如果需要使用 包 必须每次使用前包加载到内存中 可以直接选择包或者在控制台 输入library(package_name) 命令)。在Help目录下关千R相关函数 或者命令的帮助。在Plot目录下会显示图形相关方面的描述;
2021-08-07 18:12:00 1.81MB R语言 数据挖掘 数据分析 数据科学
(1)数据质星分析 (2)数据特征分析 (3)MATLAB主要数据探索函数 篇外:了解你的数据 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性
2021-08-07 18:11:59 1.97MB MATLAB 数据挖掘 数据分析 数据探索
小结 本章主要根据数据挖掘的应用分类,重点介绍了对应的数据挖掘建模方 法及实现过程。通过对本章的学习,可在以后的数据挖掘过程中采用适 当的算法并按所陈述的步骤实现综合应用,更希望本章能给读者一些启 发,思考如何改进或创造更好的挖掘算法。 归纳起来,数据挖掘技术的基本任务主要体现在分类与预测、聚类、关 联规则、时序模式、离群点检测五个方面。 5.1分类与回归主要介绍了决策树和人工神经网络两个分类模型、回归分 析预测模型及其实现过程; 5.2聚类分析主要介绍了K-Means聚类算法,建立分类方法按照接近程度 对观测对象给出合理的分类并解释类与类之间的区别; 小结 5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系; 5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对 相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势; 5.5离群点检测主要介绍了基于模型和离群点的检测方法,是发现与大部 分其他对象显著不同的对象。 前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验 操作奠定了理论基础。
小结 5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系; 5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对 相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势; 5.5离群点检测主要介绍了基于模型和离群点的检测方法,是发现与大部 分其他对象显著不同的对象。 前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验 操作奠定了理论基础。 聚类分析——常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的清况下,根据数据相似 度进行样本分组的一种方法。 与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以 建立在无类标记的数据上,是一种非监督的学习算法。 聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度 将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距 离最大化
就餐饮企业而言,经常会碰到这样的问题: 客户在餐厅点餐时,面对菜单中大量的菜品信息,往往无法迅速找到满意 的菜品,既增加了点菜的时间,也降低了客户的就餐体验。 实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的莹素 和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系 (负关联)。这些规律都隐藏在大量的历史菜单数据中,如果能够通过数 据挖掘发现客户点餐的规则,就可以快速识别客户的口味,当他下了某个 菜品的订单时推荐相关联的菜品,引导客户消费,提高顾客的就餐体验和 餐饮企业的业绩水平。 关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库中不同 的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物 习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购 买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能 会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一 条关联规则“面包=>牛奶”,其中面包称为规则的前项,而牛奶称为后项 。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的 牛奶就有可能增加超市整体的利润。 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集 中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
据统计,全国每年因窃电造成的损失都在200亿元左右;被查获的窃电案件不足总窃电案件的30%。如深圳龙岗工业区一家只有两条生产线的小塑料包装厂,一年窃电折价就30-40万元之多,某市窃电行为造成电力设施重大破坏,从而引发的大面积停电事故每年都发生多起。这不仅给国有资产造成巨大的损失,也严重扰乱了供电秩序,威胁到电网安全运行。 如何通过监测数据自动识别偷凭电行为? 基于指标加权的用电异常分析模型,虽然能获得用电异常的某些信息 ,但由于终端误报或漏报过多,无法达到真正快速精确定位窃漏电嫌 疑用户的目的,往往令稽查工作人员无所适从。而且在采用这种方法 建模时,模型各输入指标权重的确定需要用专家的知识和经验,具有 很大的主观性,存在明显的缺陷,所以实施效果往往不尽如人意。
2021-08-07 18:11:56 3.38MB 数据挖掘 数据分析 数据模型 窃电分析
国内某餐饮连锁有限公司(以下简称T餐饮)成立千1998年,主 要经营粤菜,兼顾湘菜、川菜、中餐等综合菜系。至今已经发展 成为在国内具有一定知名度、美誉度,多品牌、立体化的大型餐 饮连锁企业。 属下员工1000多人,拥有16家直营分店,经营总面积近13000平 方米,年营业额近亿元。 其旗下各分店均坐落在繁华市区主干道,雅致的装漠,配之以精 致的饰品、灯具、器物,出品精美,服务规范。 餐饮行业面临的挑战 原材料成本升高、人力成本升高、房租成本升高 利润率下降 T餐饮通过加强信息化管理来提高效率,已上线的管理系统包括: 客户关系管理系统 前厅管理系统 后厨管理系统 财务管理系统 物资管理系统 餐饮的困惑 通过以上信息化的建设,T餐饮已经积累了大量的历史数据 有没有一种方法可帮助企业从这些数据中洞察商机,提取价值? 在同质化的市场竞争中,找到一些市场以前并不存在的“捡洞” 和“补缺”?
2021-08-07 14:10:03 6.93MB 数据挖掘 数据分析 MATLAB R语言
2018-2019抖音大数据分析报告,
2021-08-06 15:00:41 24.37MB 数据挖掘 数据分析 抖音
1
详细资源介绍,可以看https://blog.csdn.net/qq_43965708/article/details/113661897。游记数据共10000行(已去重)
2021-08-05 14:04:25 7.92MB csv 数据挖掘 数据分析 自然语言处理
R语言学习资料打包下载(中文版)
2021-08-01 18:28:42 7.3MB R语言 数据挖掘 统计分析
1