Spark_LinearRegression_MLLib 该应用程序通过spark和mllib估计具有400个数据集的房价。 应用程序屏幕图像
2021-07-07 15:06:26 148KB Java
1
spark的学习过程中最重要的便是练习,我发布的都是详细注解的代码,帮助学习spark。
2021-07-07 08:45:13 11KB 代码
1
CDH-6.2.0安装教程
2021-07-06 17:01:40 2.42MB hadoop apache spark
1
An Architecture for Fast and General Data Processing on Large Clusters.pdf Discretized Streams An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters.pdf Discretized Streams Fault-Tolerant Streaming Computation at Scale.pdf GraphX Unifying Data Parallel and Graph Parallel.pdf
2021-07-06 09:01:20 18.02MB Spark 云计算
1
使用Docker构建大数据Hadoop、Spark集群动手实战_Final
2021-07-05 19:36:55 7.33MB docker
1
在Spark框架下实现了K_means算法和random forest算法
2021-07-05 16:06:43 3KB Spark K-means randomforest
1
基于Spark2.x新闻网大数据实时分析可视化系统项目 一,业务需求分析 捕获用户浏览日志信息 实时分析前20名流量最高的新闻话题 实时统计当前线上已曝光的新闻话题 统计其中的用户浏览量最高 二,系统架构图设计 三,系统数据流程设计 四,开展资源规划设计 五,步骤详解 具体请参考
2021-07-05 14:28:07 3.44MB 系统开源
1
spark+kafka 项目jar包
2021-07-05 09:07:17 186KB hadoop spark kafka
1
这是一个基本的通用微计算元素项目。 在这个项目中,我们将提供: 1. Scala/Java 容器,它将接收一个数据对象(事件)并在其上执行给定的代码。 2. 开箱即用的端到端登录 3. 至少已验证连接: a. SQL B. 卡夫卡 C. Hadoop D. JMS E. 4.导致内存缓存。 5. 开发者 UI(下一阶段)
2021-07-05 09:05:02 31KB Java
1
由于Spark基于内存计算的特性,集群的任何资源都可以成为Spark程序的瓶颈:CPU,网络带宽,或者内存。通常,如果内存容得下数据,瓶颈会是网络带宽。不过有时你同样需要做些优化,例如将RDD以序列化到磁盘,来降低内存占用。 本教程通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制,进而讲述Tungsten的内部机制,让学员知其然知其所以然。教程的后部分,是任何Spark应用者都很好关注的Spark性能调优的内容。
1