spark安装与搭建包,文件夹有spark-3.0.3-bin-hadoop2.7 (支持hadoop3.2以下),spark搭建步骤和spark课件。
2022-05-25 19:06:01 214.45MB spark 大数据 big data
1
java7 hashmap源码 电商用户行为分析大数据平台 项目介绍 1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。 模块简介 1、用户访问session分析:该模块主要是对用户访问session进行统计分析,包括session的聚合指标计算、按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session。该模块可以让产品经理、数据分析师以
2022-05-25 18:28:02 1.28MB 系统开源
1
CDH6针对hive on spark的调优文档,这个是生产的实战经验
2022-05-25 14:07:36 539KB hive spark 文档资料 hadoop
1
一、实验目的 1.理解Spark Streaming的工作流程。 2.理解Spark Streaming的工作原理。 3.学会使用Spark Streaming处理流式数据。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)Spark Streaming处理套接字流 1:编写处理套接字流的java程序代码 2:导入缺失的jar包 3:把java程序导出为jar包 4:start-all.sh,启动所有进程,并查看情况 5:启动Spark分布式集群并查看信息 6:启动9999端口 7:切换到jar包所在路径 8:提交程序到spark集群上运行 9:监测端口内容,每隔10秒钟输出一次,当有内容出现的时候,单词计数输出内容 10:退出监测,Ctrl+Z,但是这样并没有完全退出监测,到http://localhost:8080/里杀死该任务,也可以使用Ctrl+C完全退出 (二)Spark Streaming处理RDD队列流 (三)Spark Streaming处理文件流
2022-05-25 12:04:47 10.27MB hadoop spark 文档资料 大数据
一、实验目的 1. 理解Spark编程思想; 2. 学会在Spark Shell中编写Scala程序; 3. 学会在Spark Shell中运行Scala程序。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)Spark基础知识 (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 1:local模式启动 2:登录master服务器,在集群模式下启动 (5)访问http://localhost:4040可以看到spark web界面 (6)从本地文件系统中加载数据 (7)从分布式文件系统HDFS中加载数据 (8)可以调用SparkContext的parallelize方法,在Driver中一个已经存在的数组上创建RDD。 (9)可以调用SparkContext的parallelize方法,在Drive (二)spark运行wordcount程序
2022-05-25 12:04:47 6.74MB hadoop spark 文档资料 大数据
图文并茂,通俗易懂,是入门spark的首选材料图文并茂,通俗易懂,是入门spark的首选材料图文并茂,通俗易懂,是入门spark的首选材料
2022-05-24 19:55:31 3.11MB spark
1
spark数据处理和数据分析项目实战Dataframe风格里面包括数据和代码,启动idea就可以练习
2022-05-24 14:06:56 499KB spark 数据分析 intellij-idea 文档资料
Spark数据仓库汽车销售分析练习题包括代码和数据
2022-05-24 14:06:55 395KB 数据仓库 spark 汽车 文档资料
通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课程,让大家明白大数据不同技术的相互协调,从收集数据,过滤数据,数据分析,数据展示,调度的使用而开发的课程,而且怎么从hadoop,hive应用快速的过度到spark上面而做的整套流程。学完此课程可以企业流程做一个整体的认识。配套资料-答疑专属答疑群购买课程后加入qq群 951117762 (备注订单号后四位)
1
spark,flink学习
2022-05-23 14:05:59 352.6MB spark flink 学习 综合资源
1