电商用户行为分析大数据平台 项目介绍 1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。 模块简介 1、用户访问session分析:该模块主要是对用户访问session进行统计分析,包括session的聚合指标计算
2022-06-07 00:34:55 1.28MB java spark hadoop sparkjava
1
因为官网下载下来的Hadoop安装包是x86,32位的,64位需要自己编译。 现提供64位hadoop-2.7.0.tar.gz Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
2022-06-06 23:35:16 185.54MB hadoop
1
Hive优化(思维导图)
2022-06-06 19:09:19 43KB hive hadoop 数据仓库 大数据
1
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权管理 5、Hadoop各组件性能调优
2022-06-06 19:09:13 628B ClouderaHadoop Hadoop cdh5
1
目录网盘文件永久链接 第1章 大数据概述 第2章 初识Hadoop 第3章 分布式文件系统HDFS 第4章 分布式资源调度YARN 第5章 分布式计算框架MapReduce 第6章 Hadoop项目实战 第7章 Hadoop分布式集群搭建 第8章 Hadoop集成Spring的使用 第9章 前沿技术拓展Spark,Flink,Beam 第10章 Hadoop3.x新特性 源码
2022-06-06 14:11:14 303B 大数据 hadoop
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-07hadoop相关项目.mp4
2022-06-06 14:00:49 13.81MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-08hdfs文件系统定义.mp4
2022-06-06 14:00:48 27.41MB 运维 linux big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-09hdfs特点.mp4
2022-06-06 14:00:47 19.19MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-10hdfs文件系统关键词.mp4
2022-06-06 14:00:47 19.94MB 运维 linux big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-11hdfs写数据流程.mp4
2022-06-06 14:00:45 31.69MB 运维 linux big data