网络舆情是指在互联网上流行的对社会问题不同看法的网 络舆论,是社会舆论的一种表现形式,是通过互联网传播 的公众对现实生活中某些热点 焦点问题所持的有较强影 响力 倾向性的言论和观点。 近年来,网络舆情对政治生活秩序和社会稳定的影响与日 俱增,一些重大的网络舆情事件使人们开始认识到网络对 社会监督起到的巨大作用。同时,网络舆情突发事件如果 处理不当,极有可能诱发民众的不良情绪,引发群众的违 规和过激行为,进而对社会稳定形成严重威胁。因此需要 研究网络舆情与分析对象之间的关联性,寻找出与给定舆资源联系最紧密的分析对象
2021-08-08 09:09:26 1.66MB 数据分析 数据挖掘 数据建模 舆情分析
智能家居是利用先进的技术,融合个性需求,将与家居生 新功能,就能开拓新市场,实现产品的智能化。根据家居 的智能化,分析客户行为,识别不同客户群的特征、加深 对客户的理解等。(以热水器为例,分析客户行为) 针对不同的客户群提供个性化产品、改进新产品的智能化 的研发和制定相应的营销策略。 初步分析: 热水器在状态发生改变或者有水流状态时,每2秒会采集—条流水数据 。因为用户行为不仅仅只有洗浴还存在其他的用水事件:比如洗手、洗 菜等,所以热水器采集的数据来自各种不同的用水事件。 基于热水器采集的数据,根据水流量和停顿时间间佃划分为不同大小的 时间区间,每个区间是—个可理解的—次完整用水事件,并以热水器— 次完整用水事件作为—个基本事件。 从独立的用水事件中识别出其中属于洗浴的事件。
随着当今个人手机终端的普及,出行群体中手机拥有率和 使用率已达到相当高的比例,手机移动网络也基本实现了 城乡空间区域的的覆盖情况,将 至现实的地理空间中用户的现实活动轨迹,从而挖掘得到人口空间分布与活动联 系特征信息。移动通信网络的信号覆盖从逻辑上被设计成 由若干六边形的基站小区相互邻接而构成的蜂窝网络面状 服务区,手机终端总是与其中某一个基站小区保持联系, 移动通信网络的控制中心会定期或不定期地主动或被动地 记录每个手机终端时间序列的基站小区编号信息。 随着当今个人手机终端的普及,出行群体中手机拥有率和 使用率已达到相当高的比例,手机移动网络也基本实现了 城乡空间区域的 的覆盖情况,将 至现实的地理空 户的现实活动轨迹,从而挖掘得到人口空间分布与活动联 系特征信息。移动通信网络的信号覆盖从逻辑上被设计成 由若干六边形的基站小区相互邻接而构成的蜂窝网络面状 服务区,手机终端总是与其中某一个基站小区保持联系, 移动通信网络的控制中心会定期或不定期地主动或被动地 记录每个手机终端时间序列的基站小区编号信息。
2021-08-08 09:09:25 1.81MB 数据分析 数据挖掘 数据模型 商圈分析
电能的大容量、长距离输送,主要 依靠架空线路,它们长期暴露于大气环 境之中,易受雷电、台风、暴雨、覆冰、山火等气象灾害的影响而导致故障。 台风、雷电等极端自然灾害在短时间内 会造成电网的多个设备故障,加上潮流 的转移、保护装置拒、误动的推波助澜,进—步加剧相继开断,甚至造成大面 积停电。 1)台风 广东平均每年有4~5个台风经过,是受台风灾害较严重的地区之—。台风 通过极大的风压和暴雨直接摧毁输电杆塔、输电线和风电场,或引发输电线不 规则舞动,或刮倒树木,刮起异物造成断线或短路,其影响与台风强度、路径 、输电线走向及地形等因素有关。 2)雷电 雷电是造成输电线路跳闸的主要原因。雷电通过机械、热力和电磁效应影 响电力系统:机械效应劈裂或倒塌建筑架构;热力效应熔化导体或热爆避雷针 ;电磁效应通过冲击过电压引起绝缘闪络或击穿,干扰电力通信。落雷密度与 雷电强度、潮热程度及地形环境有关。 3)风偏放电 在强风或跑线风的作用下,绝缘子串向杆塔方向倾斜,减小了导线与杆塔 的空气间隙,当距离不能满足绝缘强度要求时就会发生放电,称为风偏放电。 输电线路风偏跳闸是影响输电线路安全稳定运行的主要原因之—。 4)暴雨 暴雨会影响电气设备绝缘,导致盗套管发生雨闪。其闪络电压与降雨强度 、雨水电阻率及降雨间歇性有关。高盐分的暴雨破坏性更大,而强风进—步增 加对电气设备密封的威胁,雨洪、泥石流和城市内滂会损害低洼处的电力设施 ,特别是跨河沟及滑坡体上的杆塔。 5)……
2021-08-08 09:09:25 2.21MB 数据分析 数据挖掘 关联分析 数据建模
R是用千统计分析、绘图的语言和操作环境。R是属千GNU系统的一个 自由、免费、原代码开放的软件。主流用户以命令行操作 也有工程 师开发了图形化界面进行操作。它是一个用千统计计算和统计制图的 优秀工具 具有以下优势: R比其他统计学或数学专用的编程语言有更强的物件导向(面向对象程 序设计)功能。 用千作矩阵运算 其分析速度可比商业软件MATLAB。 它的使用很大程度上是借助各种各样的R包的辅助。从某种程度上讲 R包就是针对千R的插件 不同的插件满足不同的需求。 RStudio窗口介绍 代码栏可以进行代码的编辑 以及打开R脚本或者txt文本。创建新的 文件可以从File -> New里选择 打开文件可以从目录File -> Open 或 者从Open Recent目录里打开最近的文件。运行文件可以选择相应的 代码 点击Run按钮。 命令控制台 代码运行后 控制台会显示相应的代码或者返回结果。 也可以在命令控制台单独输入命令 和R的命令模式相同。 其他栏是有关千R使用方面的显示栏。可以在Packages目录下进行R 包的安装以及加载(包安装好后 并不可以直接使用 如果需要使用 包 必须每次使用前包加载到内存中 可以直接选择包或者在控制台 输入library(package_name) 命令)。在Help目录下关千R相关函数 或者命令的帮助。在Plot目录下会显示图形相关方面的描述;
2021-08-07 18:12:00 1.81MB R语言 数据挖掘 数据分析 数据科学
MATLAB简介 MATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美 国MathWorks庄口出品的工程与科学计算软件。它提供一种用于算法 开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交 互式环境。它具有以下优势: MATLAB程序语言易学,其代码编辑、调试交互式环境比较人性化, 易于初学者上手; 具有较高的开放性,MATLAB不仅提供功能丰富的内置函数供用户调 用,也允许用户编写自定义函数来扩充功能; MATLAB是学术界和业界最常用的算法设计平台,具有丰富的网络资 源,很多用户根据自己的需要定义最新的算法或函数工具箱共享在互 联网上。 MATLAB安装 这里使用的版本为MATLAB R2014a。可从 https://cn.mathworks.com/programs/trials/trial_request.html?prodcod e=ML&s_iid=main_trial_ML_cta1下载,双击安装盘根目录下的 setup.exe文件即可安装(推荐安装64位版本,如果系统是32位则只 能安装32位版本)。 在安装的过程中可以选择使用在线安装或者离线安装两种方式,选择 在线安装需要提供用户名和密码,离线安装方式需要提供安装序列号 以及许可文件。
2021-08-07 18:12:00 4.56MB 数据挖掘 MATLAB 数据分析 数据科学
(1)数据质星分析 (2)数据特征分析 (3)MATLAB主要数据探索函数 篇外:了解你的数据 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性
2021-08-07 18:11:59 1.97MB MATLAB 数据挖掘 数据分析 数据探索
(1)数据清洗 (2)数据集成 (3)数据变换 (4)数据规约 (5)MATLAB主要数据预处理函数 在数据挖掘的过程中,数据预处理占到了整个过程的60%。 数据预处理的主要任务包括数据清洗,数据集成,数据变换和数据规约。 数据清洗主要是删除原始数据集中的无关数据、重复数据, 平滑噪声数据,处理缺失值、异常值等。
2021-08-07 18:11:59 1.03MB MATLAB 数据清洗 缺失值处理 数据挖掘
小结 本章主要根据数据挖掘的应用分类,重点介绍了对应的数据挖掘建模方 法及实现过程。通过对本章的学习,可在以后的数据挖掘过程中采用适 当的算法并按所陈述的步骤实现综合应用,更希望本章能给读者一些启 发,思考如何改进或创造更好的挖掘算法。 归纳起来,数据挖掘技术的基本任务主要体现在分类与预测、聚类、关 联规则、时序模式、离群点检测五个方面。 5.1分类与回归主要介绍了决策树和人工神经网络两个分类模型、回归分 析预测模型及其实现过程; 5.2聚类分析主要介绍了K-Means聚类算法,建立分类方法按照接近程度 对观测对象给出合理的分类并解释类与类之间的区别; 小结 5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系; 5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对 相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势; 5.5离群点检测主要介绍了基于模型和离群点的检测方法,是发现与大部 分其他对象显著不同的对象。 前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验 操作奠定了理论基础。
小结 5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系; 5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对 相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势; 5.5离群点检测主要介绍了基于模型和离群点的检测方法,是发现与大部 分其他对象显著不同的对象。 前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验 操作奠定了理论基础。 聚类分析——常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的清况下,根据数据相似 度进行样本分组的一种方法。 与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以 建立在无类标记的数据上,是一种非监督的学习算法。 聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度 将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距 离最大化