一、实验目的
1.理解Spark Streaming的工作流程。
2.理解Spark Streaming的工作原理。
3.学会使用Spark Streaming处理流式数据。
二、实验环境
Windows 10
VMware Workstation Pro虚拟机
Hadoop环境
Jdk1.8
三、实验内容
(一)Spark Streaming处理套接字流
1:编写处理套接字流的java程序代码
2:导入缺失的jar包
3:把java程序导出为jar包
4:start-all.sh,启动所有进程,并查看情况
5:启动Spark分布式集群并查看信息
6:启动9999端口
7:切换到jar包所在路径
8:提交程序到spark集群上运行
9:监测端口内容,每隔10秒钟输出一次,当有内容出现的时候,单词计数输出内容
10:退出监测,Ctrl+Z,但是这样并没有完全退出监测,到http://localhost:8080/里杀死该任务,也可以使用Ctrl+C完全退出
(二)Spark Streaming处理RDD队列流
(三)Spark Streaming处理文件流