kafka kafka与sparkStreaming kafka与Scala
2022-04-06 02:56:14 2.04MB kafka scala 分布式 开发语言
1
spark sparkStreaming sparkMaven
2022-04-06 02:48:13 3.12MB spark 大数据 big data
1
rocketmq创建spark流,手动打成第三方包,修改github的BUG,支持rocketmq4.2 spark2.2.1
2022-01-08 13:48:58 241KB rocketmq sparkstreami
1
随着互联网技术的迅速发展,用户对于数据处理的时效性、准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%。目前实时平台主要基于JStorm与SparkStreaming构建而成,本次分享将着重于介绍携程如何基于SparkStreaming构建实时计算平台,文章将从以下几个方面分别阐述平台的构建与应用:携程实时平台在接入SparkStreaming之前,JSt
1
项目以宜信贷风控系统实时数据采集系统为背景,主要描述了技术架构、核心技术难点及代码实现全过程,涉及技术包括但不限于:Kafka\zookeeper,Spark,SparkStreaming,HBase,实时访问技术,爬虫技术等
2021-12-21 22:34:26 1.43MB 大数据 Kafka Spark SparkStreami
1
项目背景 公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来,希望后来的朋友可以借阅和参考,尽量少走些弯路。 下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下: 项目简介 该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于项目升级发布,并修复了一些遇到的bug,例子中的代码已经在我们生产环境运行,所以大家可以参考一下。 主要功能 提供了快速使用 spark streaming + kafka 开发流式程序的骨架,示例中的代码大部分都加上了详细的注释 提供了手动管理kafka的offset存储到zookeeper的方法,并解决了一些bug,如kafka扩容分区,重启实
2021-10-26 17:13:10 14KB Scala
1
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程亮点 1,针对时下热门的新冠疫情数据进行大数据分析 2,手把手从零开始搭建项目并进行代码实现 3,综合运用HttpClient+Jsoup+Kafka+SparkStreaming+StructuredStreaming+SpringBoot+Echarts等多种实用技术 适用人群 1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 课程内容 第一章 项目介绍 1.1. 项目背景 1.2. 项目架构 1.3. 项目截图 1.4. 功能模块 第二章 数据爬取和生成 2.1. 数据清单 2.2. Java爬虫入门 2.3. 疫情数据爬取 2.4. 防疫数据生成 第三章 实时数据处理和分析 3.1. 环境准备 3.2. 物资数据实时处理与分析 3.3. 疫情数据实时处理与分析 第四章 实时数据展示 4.1. 环境准备 4.2. Echarts入门 4.3. SpringBoot+Echarts实现数据可视化 第五章 博雅云SaaS平台实现大屏展示 5.1. 云平台三种模式 5.2. 博雅云SaaS平台介绍 5.3. 博雅云应用案例 5.4. 云平台组件使用 5.5. 基于云平台实现大屏展示 第六章 项目总结 6.1. 业务总结 6.2. 技术总结
2021-10-14 19:05:47 75B 疫情 sparkstreaming kafka springboot
避免流式传输 前言:使用scala和java混编完成,其中也涉及到python脚本来自动生成日志,linux crontab调度工具来定时执行脚本生成实时日志。生成的数据主要是模拟某学习网站学习视频课程的访问量(其中*以“ / class”开头的表示实战课程,然后通过流水线Flume + Kafka + SparkStreaming进行实时日志的收集,HBase来存储数据)* 注意事项(使用的软件工具及环境配置) hadoop-2.6.0-cdh5.7.0 hbase-1.2.0-cdh5.7.0 zookeeper-3.4.5-cdh5.7.0 spark-2.2.0-bin-2.6
2021-09-24 14:31:54 921KB java scala spark ScalaJava
1
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程主要讲解的内容包括:Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优、Spark SQL、Spark Streaming。 本课程的最大特色包括: 1、代码驱动讲解Spark的各个技术点(绝对不是照着PPT空讲理论); 2、现场动手画图讲解Spark原理以及源码(绝对不是干讲源码和PPT); 3、覆盖Spark所有功能点(Spark RDD、Spark SQL、Spark Streaming,初级功能到高级特性,一个不少); 4、Scala全程案例实战讲解(近百个趣味性案例); 5、Spark案例实战的代码,几乎都提供了Java和Scala两个版本和讲解(一次性同时精通Java和Scala开发Spark); 6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种转换方式,Spark SQL的内置函数、开窗函数、UDF、UDAF,Spark Streaming的Kafka Direct API、updateStateByKey、transform、滑动窗口、foreachRDD性能优化、与Spark SQL整合使用、持久化、checkpoint、容错与事务。 7、多个从企业实际需求抽取出的复杂案例实战:每日uv和销售额统计案例、top3热卖商品统计案例、每日top3热点搜索词统计、广告计费日志实时黑名单过滤案例、热点搜索词滑动统 计案例、top3热门商品实时统计案例 8、深度剖析Spark内核源码与Spark Streaming源码,给源码进行详细的注释和讲解(史上最细致源码讲解) 9、全面讲解Spark、Spark SQL、Spark Streaming的性能调优,其中包括全网唯一的Shuffle性能调优(详细讲解性能调优的各个技术点) 10、涵盖Spark两个重要版本,Spark 1.3.0和Spark 1.5.1的讲解(走在Spark最前沿,涵盖最新高级特性) 一、Scala编程详解 二、课程环境搭建 三、Spark核心编程 四、Spark内核源码深度剖析 五、Spark性能优化 六、Spark SQL 七、Spark Streaming
2021-07-15 09:10:24 75B spark sparkSQL sparkStreaming 大数据开发
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 大数据企业级项目用户画像实战从0手把手设计、开发教学,实现用户标签化,精准定位与营销 第一章用户画像概念讲解,项目及环境构建 第二章数据ETL迁移、标签模型Oozie调度、标签存储与计算 第三章标签模型开发、规则匹配引擎 第四章SparkSQL开发、外部数据源配置、Hbase应用、统计开发 第五章Hbase条件过滤、数据条件动态过滤动态加载、推荐系统入门(协同过滤算法讲解CF、使用ALS实现) 第六章机器学习快速入门及应用 第七章数据挖掘标签开发(Kmens算法) 第八章算法模型调优、RFE、PSM标签开发 第九章USG标签开发 第十章多数据源配置、用户商品推荐、标签索引化(ES)、用户画像项目总结