一、实验目的
(1)通过实验掌握 Spark SQL 的基本编程方法;
(2)熟悉 RDD 到 DataFrame 的转化方法;
(3)熟悉利用 Spark SQL 管理来自不同数据源的数据。
(4)java程序实现SparkSQL
二、实验环境
Windows 10
VMware Workstation Pro虚拟机
Hadoop环境
Jdk1.8
三、实验内容
(一)SparkSQL的基本知识
(1)输入start-all.sh启动hadoop相应进程和相关的端口号
(2)启动Spark分布式集群并查看信息
(3)网页端查看集群信息
(4)启动spark-shell控制台
(5)访问http://localhost:4040可以看到spark web界面
(6)进入/spark/examples/src/main/resources目录,查看该目录下的内容
(7)查看people.json和employees.json的内容
(8)读取people.json、employees.json,创建DataFrame