随着云时代的到来,大数据也吸引了越来越多多关注。而Spark做为大数据处理的佼佼者,越来越受到人们的关注。正是由于Spark技术的出现,使得在云计算上构建超大规模的大数据平台成为了可能。Spark诞生于伯克利大学AMPLab,是现今大数据领域里最为活跃,最为热门,最为高效的大数据通用计算平台。Spark是基于MapReduce算法实现的一个分布式计算框架,Spark继承了Hadoop的MapReduce的所有优点,但是比Hadoop更为高效。Spark成功使用SparkSQL/SparkStreaming/MLlib/GraphX近乎完美的解决了大数据中的BatchProcessing、
1