航空军用发动机故障诊断与状态预测是制定合理的发动机调度和维修规划的基础,也是保障运营安全、提高经济性的重要支撑技术
2021-12-22 22:04:41 3.29MB 民航大数据
1
大数据分析与可视化——全球空气质量研究报告:由全球到中国再到天津,根据数据进行可视化并展开分析。全文共21页,word + 图文,仅供学习参考。可视化工具为tableau
云端时代杀手级应用 大数据分析
2021-12-22 09:22:13 47.31MB 大数据分析
1
本课程以一个小项目带你快速上手 Python 爬虫和数据分析,主要分 3 部分: 第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和京东商城胸罩销售数据,并保存到 SQLite 数据库中; 第 2 部分是对抓取的胸罩销售数据进行数据清洗,主要是去除空数据,让数据格式更规范; 第 3 半部分利用 Pandas 对数据进行分析,以及使用 Matplotlib 对分析后的数据进行可视化。 通过一系列分析,可以得到中国女性胸部尺寸(胸围)的标准大小,想知道中国女性最标准的胸围是多少吗?想知道什么颜色的胸罩最畅销吗?想知道 C 罩杯以上的女性喜欢到天猫还是京东购买胸罩吗?答案尽在本课程中
2021-12-21 21:59:06 8.44MB Python 大数据分析 可视化数据
1
java、Scala实现的大数据分析代码、最高在线人数、登录日志分析、付款情况分析等等
2021-12-21 14:09:49 44KB Scala scala示例代码 分析 大数据分析
1
实时大数据分析A-Priori算法,源码,报告加数据集,实验ppt 给定超市购物记录集sales_detail.csv,提取其中的交易标识符和商品名称构成购物篮数据集。用A-Priori算法发现其中的关联规则。
2021-12-20 23:05:28 95.05MB 实时大数据分析 Hadoop Python 广工
1
基于云计算的地铁大数据分析方法研究.docx
2021-12-20 18:00:06 13KB
bigdata_analyse 大数据分析项目 希望 采用不同的技术栈,通过对不同行业的数据集进行分析,期望达到以下目标: 了解不同领域的业务分析指标 深化数据处理,数据分析,数据可视化能力 增加大数据批处理,流处理的实践经验 增加数据挖掘的实践经验 小费 项目主要使用的编程语言是python,sql,hql .ipynb可以用jupyter notebook :,如何安装,可以参考 jupyter notebook是一种网页交互形式的python编辑器,直接通过pip安装,也支持markdown,很适合用来做数据分析可视化以及写文章,写示例代码等。 列表 主题 处理方式 技术栈 数据集下载 离线处理 清洗蜂巢+分析蜂巢+可视化echarts 或者提取码:5ipq 实时处理 数据源kafka +实时分析flink +可视化(es + kibana) 提取码:m4mc 离线处理 清洗熊
2021-12-18 21:50:28 464KB Python
1
数据分析平台七大业务分析 ①具体的七大业务分析,针对不同的数据 ②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。 ③依据业务深入MapReduce使用 ④数据处理时,针对不同问题如何优化调整等
2021-12-17 14:56:38 51.06MB 离线大数据
1
兰州大学数据挖掘与大数据分析 Assignment 3 数据集(10 分) • 从UCI dataset repository 中下载以下数据集 –(5 分)IRIS –(5 分)Breast Cancer Wisconsin (Diagnostic) Data Set 下载以后,仔细阅读数据集的使用说明,理解其用途及每一列数据的含义。 随机森林和AdaBoost(60 分) •(30 分)分类任务:分别对两个数据集按照自己设定的比例进行训练集、测试集的划分,使 用训练集分别训练随机森林模型跟AdaBoost(基分类器采用决策树模型) 分类器,并分别用测 试集测试其性能; •(30 分)回归任务:忽略两个数据集中的类别属性,从其余属性中任选一个作为回归任务的 目标属性;分别对两个数据集按照自行设定的比例进行训练集、测试集的划分,使用训练集 分别训练随机森林跟AdaBoost 回归器,并分别用测试集测试其性能。 随机森林跟AdaBoost 分类器可直接使用sklearn 包中的实现。 撰写技术报告(30 分) 以科技论文的形式撰写assignment 的技术报告。 • 自行设计实验,达到以下目的 – 对比两个模型在同样数据上的分类、回归的性能(使用合适的指标),并对结果进行分 析; – 对于回归任务,体现不同大小的训练集对回归器性能的影响(无需交叉验证); • 实验部分应对数据集进行介绍,参考文献中给出该数据集的原始出处并在报告正文中第一次 出现给数据集的地方添加对文献的引用; 1 • 对实验结果的呈现,必须以文字形式进行阐述、解释或者说明,不能只是简单地展示结果的 图,否则会减分;调整图的大小,使之清晰美观,否则会减分; • 报告应以正规的书面语言进行客观的阐述,切勿使用口语化的表达方式或使用随意的网络用 语; • 插图应使用矢量图,图、表要添加编号与标题,并在正文中引用其编号; • 报告中对使用的算法应引用其出处的参考文献,引用格式为用方括号括起来的上标数字形式, 按引用的次序依次顺序编号,并在报告末尾添加“参考文献”一节;每一条文献条目中至少 应包括作者名,文章标题,期刊名,期号,卷号,出版年月,pp:页码范围,DOI 号或官网的 URL。 必须提交的材料 • 下载的数据集:各个数据集各自存入一个文件中,文件名为程序中使用该数据集时的名称; • python 的源程序:每个源程序存入一个文件,文件名能体现其作用; • pdf 版本的技术报告; • 以上三部分压缩成一个压缩包,以学号+ 姓名对压缩包进行命名。
2021-12-17 14:03:10 2.79MB python