Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下:
目录
第一章 Spark简介与计算模型 3
1 What is Spark 3
2 Spark简介 3
3 Spark历史 4
4 BDAS生态系统 4
5 Spark与Hadoop的差异 5
6 Spark的适用场景 6
7 Spark成功案例 6
第二章 Spark开发环境搭建 8
1 Spark运行模式 8
2 Spark环境搭建 8
2.1Scala的安装 8
2.2Spark的单节点配置 9
2.3Spark-Standalone集群配置 9
2.4Spark-on-Yarn模式配置 12
2.5Spark-on-Mesos模式配置 13
2.6Hive-on-Spark配置 13
第三章 Spark计算模型 15
1 RDD编程 15
1.1弹性分布式数据集RDD 15
1.2构建RDD对象 15
2RDD操作 15
2.1将函数传递给Spark 16
2.2了解闭包 16
2.3Pair RDD模型 17
2.4Spark常见转换操作 18
2.5Spark常见行动操作 20
2.6RDD持久化操作 21
2.7注意事项 23
2.7并行度调优 24
2.8分区方式 25
3Examle:PageRank 27
第四章 Spark编程进阶 29
1共享变量 29
1.1累加器 30
1.2广播变量 31
2基于分区进行操作 32
3与外部程序间的管道 33
4数值RDD的操作 34
5 Spark Shuffle机制 34
第五章 Spark调优与调试 39
1开发调优: 40
1.1调优概述 40
1.2原则一:避免创建重复的RDD 40
1.3原则二:尽可能复用同一个RDD 41
1.4原则三:对多次使用的RDD进行持久化 42
1.5原则四:尽量避免使用shuffle类算子 43
1.6原则五:使用map-side预聚合的shuffle操作 44
1.7原则六:使用高性能的算子 45
1.8原则七:广播大变量 46
1.9原则八:使用Kryo优化序列化性能 47
1.10原则九:优化数据结构 48
2资源调优 48
2.1调优概述 48
2.2 Spark作业基本运行原理 49
2.3资源参数调优 50
第六章 Spark架构和工作机制 52
1 Spark架构 52
1.1 Spark架构组件简介 52
1.2 Spark架构图 54
2 Spark工作机制 54
2.1 Spark作业基本概念 54
2.2 Spark程序与作业概念映射 55
2.3 Spark作业运行流程 55
3 Spark工作原理 55
3.1 作业调度简介 55
3.2 Application调度 56
3.3 Job调度 56
3.4 Tasks延时调度 56
第七章 Spark运行原理 57
1 Spark运行基本流程 57
2 Spark在不同集群中的运行架构 58
2.1 Spark on Standalone运行过程 59
2.2 Spark on YARN运行过程 60
1