消费kafka数据,然后批量导入到Elasticsearch,本例子使用的kafka版本0.10,es版本是6.4,使用bulk方式批量导入到es中,也可以一条一条的导入,不过比较慢。 org.elasticsearch elasticsearch 6.4.0 org.elasticsearch.client elasticsearch-rest-high-level-client 6.4.0 org.elasticsearch.client transport 6.4.0 org.apache.kafka kafka-clients 0.10.1.0
2021-12-06 11:27:21 9KB kafka Elasticsearc 批量导入
1
kafka课堂讲义.docx
2021-12-06 09:13:44 3.16MB kafka
1
spark-sql课堂讲义.docx
2021-12-06 09:13:26 663KB spark
1
spark-streaming课堂讲义.docx
2021-12-06 09:13:25 1.3MB spark
1
Spark-内核源码解析.docx
2021-12-06 09:13:25 2.69MB spark
1
case_pyspark 基于Python语言的Spark数据处理分析案例集锦(PySpark) 实验环境 1) Linux: Ubuntu 20.04 2) Python: 3.7.x 3) Spark: 2.4.5(安装教程: 4) Jupyter Notebook: (安装教程和使用方法: 案例 1) yelp: 基于YELP数据集的商业数据分析 2) us_counties: 2020年美国新冠肺炎疫情数据分析 3) ECommerce: 基于零售交易数据的Spark数据处理与分析 4) earthquake: 基于地震数据的Spark数据处理与分析 5) global: 基于Spark的地震数据处理与分析 6) OverDue: 基于信用卡逾期数据的Spark数据处理与分析 7) project: 基于 TMDB 数据集的电影数据分析
2021-12-04 21:30:51 7.04MB HTML
1
配置好的kafka_2.12-2.8.0 + SCRAM-SHA-256,打开修改少量配置即可用
2021-12-04 09:12:05 68.69MB kafka SCRAM-SHA-256 安装kafka
1
在线教育项目 1.dwd 数据清洗 数据脱敏 清洗规则 脱敏字段,存储基础表 2.dws 降维 对表轻度聚合 做题表 课程表 主修行业表 试卷表。 3.join 方式:Spark SQL 、DF API、DS API , RDD DF DS 三者区别 优点和劣势。 宽表:几张宽表,字段。 拉链表:缓慢变化的字段(vip等级 用户支付金额) 4.用户注册模块:统计各个平台注册人数,通过url地址跳转的注册人数,top3用户支付金额 对内分析各部门贡献程度。 做题模块:统计试卷分数、做题情况、做题难易度 对外用户。
2021-12-02 17:51:41 130.96MB scala hadoop spark
1
快速测试 一个快速的Apache Spark测试帮助程序库,其中包含格式精美的错误消息! 与 , 和。 将用于PySpark应用程序。 阅读以获得关于测试Spark代码的最佳方法的完整说明! 好的测试套件可以产生易于重构的更高质量的代码库。 安装 从Maven获取JAR文件。 // for Spark 3 libraryDependencies + = " com.github.mrpowers " %% " spark-fast-tests " % " 1.0.0 " % " test " // for Spark 2 libraryDependencies + = " com.github.mrpowers " %% " spark-fast-tests " % " 0.23.0 " % " test " 这是和。 。 您应该将Scala 2.11与Spark 2一起使用,
2021-12-01 16:46:34 203KB spark testing-framework Scala
1
example-spark:Spark,Spark Streaming和Spark SQL单元测试策略
2021-12-01 15:11:50 56KB testing spark spark-streaming TestingScala
1