云端时代杀手级应用 大数据分析
2021-12-22 09:22:13 47.31MB 大数据分析
1
本课程以一个小项目带你快速上手 Python 爬虫和数据分析,主要分 3 部分: 第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和京东商城胸罩销售数据,并保存到 SQLite 数据库中; 第 2 部分是对抓取的胸罩销售数据进行数据清洗,主要是去除空数据,让数据格式更规范; 第 3 半部分利用 Pandas 对数据进行分析,以及使用 Matplotlib 对分析后的数据进行可视化。 通过一系列分析,可以得到中国女性胸部尺寸(胸围)的标准大小,想知道中国女性最标准的胸围是多少吗?想知道什么颜色的胸罩最畅销吗?想知道 C 罩杯以上的女性喜欢到天猫还是京东购买胸罩吗?答案尽在本课程中
2021-12-21 21:59:06 8.44MB Python 大数据分析 可视化数据
1
java、Scala实现的大数据分析代码、最高在线人数、登录日志分析、付款情况分析等等
2021-12-21 14:09:49 44KB Scala scala示例代码 分析 大数据分析
1
实时大数据分析A-Priori算法,源码,报告加数据集,实验ppt 给定超市购物记录集sales_detail.csv,提取其中的交易标识符和商品名称构成购物篮数据集。用A-Priori算法发现其中的关联规则。
2021-12-20 23:05:28 95.05MB 实时大数据分析 Hadoop Python 广工
1
基于云计算的地铁大数据分析方法研究.docx
2021-12-20 18:00:06 13KB
bigdata_analyse 大数据分析项目 希望 采用不同的技术栈,通过对不同行业的数据集进行分析,期望达到以下目标: 了解不同领域的业务分析指标 深化数据处理,数据分析,数据可视化能力 增加大数据批处理,流处理的实践经验 增加数据挖掘的实践经验 小费 项目主要使用的编程语言是python,sql,hql .ipynb可以用jupyter notebook :,如何安装,可以参考 jupyter notebook是一种网页交互形式的python编辑器,直接通过pip安装,也支持markdown,很适合用来做数据分析可视化以及写文章,写示例代码等。 列表 主题 处理方式 技术栈 数据集下载 离线处理 清洗蜂巢+分析蜂巢+可视化echarts 或者提取码:5ipq 实时处理 数据源kafka +实时分析flink +可视化(es + kibana) 提取码:m4mc 离线处理 清洗熊
2021-12-18 21:50:28 464KB Python
1
数据分析平台七大业务分析 ①具体的七大业务分析,针对不同的数据 ②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。 ③依据业务深入MapReduce使用 ④数据处理时,针对不同问题如何优化调整等
2021-12-17 14:56:38 51.06MB 离线大数据
1
兰州大学数据挖掘与大数据分析 Assignment 3 数据集(10 分) • 从UCI dataset repository 中下载以下数据集 –(5 分)IRIS –(5 分)Breast Cancer Wisconsin (Diagnostic) Data Set 下载以后,仔细阅读数据集的使用说明,理解其用途及每一列数据的含义。 随机森林和AdaBoost(60 分) •(30 分)分类任务:分别对两个数据集按照自己设定的比例进行训练集、测试集的划分,使 用训练集分别训练随机森林模型跟AdaBoost(基分类器采用决策树模型) 分类器,并分别用测 试集测试其性能; •(30 分)回归任务:忽略两个数据集中的类别属性,从其余属性中任选一个作为回归任务的 目标属性;分别对两个数据集按照自行设定的比例进行训练集、测试集的划分,使用训练集 分别训练随机森林跟AdaBoost 回归器,并分别用测试集测试其性能。 随机森林跟AdaBoost 分类器可直接使用sklearn 包中的实现。 撰写技术报告(30 分) 以科技论文的形式撰写assignment 的技术报告。 • 自行设计实验,达到以下目的 – 对比两个模型在同样数据上的分类、回归的性能(使用合适的指标),并对结果进行分 析; – 对于回归任务,体现不同大小的训练集对回归器性能的影响(无需交叉验证); • 实验部分应对数据集进行介绍,参考文献中给出该数据集的原始出处并在报告正文中第一次 出现给数据集的地方添加对文献的引用; 1 • 对实验结果的呈现,必须以文字形式进行阐述、解释或者说明,不能只是简单地展示结果的 图,否则会减分;调整图的大小,使之清晰美观,否则会减分; • 报告应以正规的书面语言进行客观的阐述,切勿使用口语化的表达方式或使用随意的网络用 语; • 插图应使用矢量图,图、表要添加编号与标题,并在正文中引用其编号; • 报告中对使用的算法应引用其出处的参考文献,引用格式为用方括号括起来的上标数字形式, 按引用的次序依次顺序编号,并在报告末尾添加“参考文献”一节;每一条文献条目中至少 应包括作者名,文章标题,期刊名,期号,卷号,出版年月,pp:页码范围,DOI 号或官网的 URL。 必须提交的材料 • 下载的数据集:各个数据集各自存入一个文件中,文件名为程序中使用该数据集时的名称; • python 的源程序:每个源程序存入一个文件,文件名能体现其作用; • pdf 版本的技术报告; • 以上三部分压缩成一个压缩包,以学号+ 姓名对压缩包进行命名。
2021-12-17 14:03:10 2.79MB python
《触手可及的大数据分析工具tableau案例集》是tableau入门级的数,简洁的语言,配上丰富的实例讲解,很容易就可以上手tableau,帮助你高效处理数据,并没有精美的仪表盘制作,让你的数据可视化更上一层楼。有需则自行下载,一起学习。
2021-12-16 19:05:57 80.56MB tableau
1
大数据分析及环境搭建.
2021-12-16 18:07:53 23.58MB 大数据 数据分析
1