避免流式传输
前言:使用scala和java混编完成,其中也涉及到python脚本来自动生成日志,linux crontab调度工具来定时执行脚本生成实时日志。生成的数据主要是模拟某学习网站学习视频课程的访问量(其中*以“ / class”开头的表示实战课程,然后通过流水线Flume + Kafka + SparkStreaming进行实时日志的收集,HBase来存储数据)*
注意事项(使用的软件工具及环境配置)
hadoop-2.6.0-cdh5.7.0
hbase-1.2.0-cdh5.7.0
zookeeper-3.4.5-cdh5.7.0
spark-2.2.0-bin-2.6
1