Spark Shuffle 分为两种:一种是基于 Hash 的 Shuffle;另一种是基于 Sort 的 Shuffle。
2021-10-09 19:06:19 1.61MB SparkShuffle
Ubuntu下安装spark.pdf
2021-10-09 10:02:10 2.05MB 安装
文章目录写在前面搭建好Hadoop集群环境安装Spark(Master节点上操作)配置环境变量(Master节点上操作)Spark配置(Master节点上操作)配置Worker节点启动Spark集群(在Master节点上操作)关闭Spark集群(在Master节点上操作) 写在前面 这里采用2台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器作为Master节点,另外一台机器作为Slave1节点(即作为Worker节点)。 集群环境 Centos6.4 Hadoop2.7.7 java 1.8 (请确保java版本在1.8以上,否则会踩坑,反正我后面踩了) 搭建好Hadoop集
2021-10-09 09:39:50 110KB ar ark 分布
1
apache-hive-2.2.0-bin.tar.gz apache-hive-2.2.0-bin.tar.gz
2021-10-07 20:06:25 208.08MB hive hadoop apache spark
1
基于HBase和Spark构建企业级数据处理平台.zip
2021-10-06 13:02:59 4.67MB
Spark机器学习
2021-10-06 10:54:18 45.91MB Spark ,机器学习
1
spark-2.4.6-bin-hadoop2.7.tgz,可以下载
2021-09-29 20:09:28 222.48MB spark
1
spark--bin-hadoop2-without-hive.tgz
2021-09-29 19:06:00 127.78MB spark
1
spark 机器学习使用的例子数据,sample_libsvm_data.txt
2021-09-29 18:53:49 102KB spark mllib
1
今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像python那样,使用jupyter notebook进行编程就很方便了,同时也适合代码展示,网上查了一下,试了一下,碰到了很多坑,有些是旧的版本,还有些是版本不同导致错误,这里就记录下来安装的过程。 1.运行环境 硬件:Mac 事先装好:Jupyter notebook,spark2.1.0,scala 2.11.8 (这个版本很重要,关系到后面的安装) 2.安装 2.1.scala kernel 从github下载 git clone https:/
2021-09-29 09:22:04 139KB al ar ark
1