Spark Streaming实时流处理项目实战.rar.rar
2021-11-24 19:49:25 130KB Spark Streaming实
1
Flink,Storm,Spark Streaming三种流框架的对比分析。比较清晰明确
2021-11-24 00:23:48 2.36MB flink strom spark
1
本文件是我的博客中的《Spark Streaming项目实战》一文中所用到的数据集,如果有小伙伴想实现我的博客实战项目的两个需求,需要下载这个文件。欢迎大家下载!
2021-11-17 21:40:10 5KB Spark Streaming
1
kafka与streaming配置与开发文档001. kafka版本为kafka_2.10-0.8.2.0 spark版本为1.3.0
2021-11-17 17:43:07 28KB kafka streaming
1
项目背景 公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来,希望后来的朋友可以借阅和参考,尽量少走些弯路。 下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下: 项目简介 该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于项目升级发布,并修复了一些遇到的bug,例子中的代码已经在我们生产环境运行,所以大家可以参考一下。 主要功能 提供了快速使用 spark streaming + kafka 开发流式程序的骨架,示例中的代码大部分都加上了详细的注释 提供了手动管理kafka的offset存储到zookeeper的方法,并解决了一些bug,如kafka扩容分区,重启实
2021-10-26 17:13:10 14KB Scala
1
Scala代码积累之spark streaming kafka 数据存入到hive源码实例,Scala代码积累之spark streaming kafka 数据存入到hive源码实例。
2021-10-19 13:38:34 3KB Scala
1
避免流式传输 前言:使用scala和java混编完成,其中也涉及到python脚本来自动生成日志,linux crontab调度工具来定时执行脚本生成实时日志。生成的数据主要是模拟某学习网站学习视频课程的访问量(其中*以“ / class”开头的表示实战课程,然后通过流水线Flume + Kafka + SparkStreaming进行实时日志的收集,HBase来存储数据)* 注意事项(使用的软件工具及环境配置) hadoop-2.6.0-cdh5.7.0 hbase-1.2.0-cdh5.7.0 zookeeper-3.4.5-cdh5.7.0 spark-2.2.0-bin-2.6
2021-09-24 14:31:54 921KB java scala spark ScalaJava
1
Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql) spark
2021-09-17 15:32:48 15.61MB Spark 零基础 思维导图 spark-sql
1
操作步骤: 一.数据采集:视频网站访问日志(编辑python脚本) 1.Python日志产生器开发URL ,ip信息,状态码,时间等 2.python日志产生器测试并将日志写入到文件中 3.通过定时调度工具每一分钟产生一批数据 4.使用flume实时收集日志信息 5.对接实时数据到kafka并输出到控制台 6.spark streaming对接kafka的数据进行消费 数据采集详情:项目其他\数据采集.docx 二.数据清洗:见项目 使用spark streaming完成数据清洗操作 三.数据分析:见项目 功能一: 统计到今天为止视频的访问量 yyyyMMdd courseId 使用数据库来进行存储我们的统计结果 sparkstreaming把统计结果写入到数据库里面 hbase表设计:create 'aqy_video_clickcount','info' RowKey设计:day_videoid 功能二: 统计今天到现在为止从搜索引擎引流过来的实战课程的访问量 功能1+从搜索引擎引流过来的 HBase表设计: create 'aqy_video_search_clickcount','info' rowkey设计:根据业务需求20200529+search 功能具体实现步骤: 1.数据库访问dao层方法定义 2.hbase操作工具类开发 3.将spark streaming的处理结果写到hbase中 4.映射到hive数据仓库中 四.数据可视化:见数据可视化项目
2021-08-31 10:57:46 349KB spark 大数据
1