如果你只是想单纯的修改部分类的源码,并不需要网上教程的mvn  build等操作。通过我这个教程即可
2021-09-10 19:26:58 459KB spark源码
1
Apache Spark源码剖析,word版本,可以进行编辑。
2021-08-12 14:10:53 1.97MB Spark 大数据 程序员 教程
1
spark2.0版本的源码,此版本为当前的稳定版本,而且此源码带有注释的
2021-08-10 19:55:11 21.26MB spark 源码
1
《深入理解Spark核心思想与源码分析》讲解了spark基本内容及源码分析
2021-06-24 16:51:28 40.77MB 大数据 spark 源码
1
spark2.4.7兼容haddoop 3.1.4 和hive 3.1.2修改spark源码和jar
2021-05-10 14:05:10 9.92MB hadoop spark hive 大数据
1
Spark底层
2021-04-20 14:07:39 15KB spark
1
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。SparkContext实例化之后,在内部实例化两个很重要的类,DAGScheduler和TaskScheduler。在standalone的模式下,TaskScheduler的实现类是TaskSchedulerImpl,在初始化它的时候SparkContext会传入一个Spa
1
这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。它调用SparkContext去缓存这个RDD,追杀下去。它居然是用一个HashMap来存的,具体看这个map的类型是TimeStampedWeakValueHashMap[Int,RDD[_]]类型。把存进去的值都隐式转换成WeakReference,然后加到一个内部的一个ConcurrentHashMap里面。这里貌似也没干啥,这是有个鸟蛋用。。大神莫喷,知道干啥用的人希望告诉我一下。现在并没有保存,等到真正运行Task运行的时候才会去缓存起来。入口在Task的runTask方
2021-03-03 21:08:07 170KB Spark源码系列(五)分布式缓存
1
Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。这篇文章主要是沿着下面几个问题来开展:shuffle过程的划分?shuffle的中间结果如何存储?shuffle的数据如何拉取过来?Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出reduceByKey这个来讲。reduceByKey的时候,我们可以手动设定reduce的个数,如果不指定的话,就可能不受控制了。1、如果自定义了分区函数par
1
bigdataclass:为期两天的研讨会,内容涉及如何使用R来交互数据库和Spark
2021-02-06 09:04:53 7.66MB r big-data spark db
1