记得自己要引入环境
(1)利用SparkStreaming从文件目录读入日志信息,日志内容包含:
”日志级别、函数名、日志内容“ 三个字段,字段之间以空格拆分。请看数据源的文件。
(2)对读入都日志信息流进行指定筛选出日志级别为error或warn的,并输出到外部MySQL中。
需要用到的函数
(1)输入采用textFileStream()算子
(2)输出采用foreachRDD()算子
(3)将RDD转为DataFrame
(4)DataFrame注册为临时表,使用SQL过滤
(5)将过滤后的数据保存到MySQL
1