上传者: 47888212
|
上传时间: 2022-05-25 12:04:47
|
文件大小: 6.74MB
|
文件类型: DOC
一、实验目的
1. 理解Spark编程思想;
2. 学会在Spark Shell中编写Scala程序;
3. 学会在Spark Shell中运行Scala程序。
二、实验环境
Windows 10
VMware Workstation Pro虚拟机
Hadoop环境
Jdk1.8
三、实验内容
(一)Spark基础知识
(1)输入start-all.sh启动hadoop相应进程和相关的端口号
(2)启动Spark分布式集群并查看信息
(3)网页端查看集群信息
(4)启动spark-shell控制台
1:local模式启动
2:登录master服务器,在集群模式下启动
(5)访问http://localhost:4040可以看到spark web界面
(6)从本地文件系统中加载数据
(7)从分布式文件系统HDFS中加载数据
(8)可以调用SparkContext的parallelize方法,在Driver中一个已经存在的数组上创建RDD。
(9)可以调用SparkContext的parallelize方法,在Drive
(二)spark运行wordcount程序