CDH-6.2.0安装教程
2021-07-06 17:01:40 2.42MB hadoop apache spark
1
An Architecture for Fast and General Data Processing on Large Clusters.pdf Discretized Streams An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters.pdf Discretized Streams Fault-Tolerant Streaming Computation at Scale.pdf GraphX Unifying Data Parallel and Graph Parallel.pdf
2021-07-06 09:01:20 18.02MB Spark 云计算
1
使用Docker构建大数据Hadoop、Spark集群动手实战_Final
2021-07-05 19:36:55 7.33MB docker
1
Spark框架下实现了K_means算法和random forest算法
2021-07-05 16:06:43 3KB Spark K-means randomforest
1
基于Spark2.x新闻网大数据实时分析可视化系统项目 一,业务需求分析 捕获用户浏览日志信息 实时分析前20名流量最高的新闻话题 实时统计当前线上已曝光的新闻话题 统计其中的用户浏览量最高 二,系统架构图设计 三,系统数据流程设计 四,开展资源规划设计 五,步骤详解 具体请参考
2021-07-05 14:28:07 3.44MB 系统开源
1
spark+kafka 项目jar包
2021-07-05 09:07:17 186KB hadoop spark kafka
1
这是一个基本的通用微计算元素项目。 在这个项目中,我们将提供: 1. Scala/Java 容器,它将接收一个数据对象(事件)并在其上执行给定的代码。 2. 开箱即用的端到端登录 3. 至少已验证连接: a. SQL B. 卡夫卡 C. Hadoop D. JMS E. 4.导致内存缓存。 5. 开发者 UI(下一阶段)
2021-07-05 09:05:02 31KB Java
1
由于Spark基于内存计算的特性,集群的任何资源都可以成为Spark程序的瓶颈:CPU,网络带宽,或者内存。通常,如果内存容得下数据,瓶颈会是网络带宽。不过有时你同样需要做些优化,例如将RDD以序列化到磁盘,来降低内存占用。 本教程通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制,进而讲述Tungsten的内部机制,让学员知其然知其所以然。教程的后部分,是任何Spark应用者都很好关注的Spark性能调优的内容。
1
基于Apache Spark的配电网大数据预处理技术研究.pdf
2021-07-04 19:09:05 1.56MB 大数据 数据分析 数据应用 数据时代
巩固流数据处理技术掌握情况,锻炼团队协作能力,提高对Spark数据处理技术的理解和综合运用能力。 某网站系统实时产生日志信息,记录用户对系统的访问信息,例如:IP地址,用户名称,访问时间,请求和响应信息,其中IP地址信息是表示全国各地用户的访问情况,对IP地址的详细分析,可以了解各个地区对该网站系统访问的活跃度,用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。 计算机方面,帮写课设,实验报告,长理优先
1