卡夫卡火花流与静态数据使用联接 使用join的Kafka Spark流与静态数据
2022-04-16 03:29:40 26KB Java
1
├─Spark-day01 │      01-[了解]-Spark发展历史和特点介绍.mp4 │      03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │      06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │      07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │      09-[掌握]-Spark代码开发-准备工作.mp4 │      10-[重点]-Spark代码开发-入门案例.mp4 ├─Spark-day02 │      02-[掌握]-RDD的创建.mp4 │      04-[掌握]-RDD的分区操作.mp4 │      05-[掌握]-RDD的重分区操作.mp4 │      06-[掌握]-RDD的聚合操作.mp4 │      07-[面试题]-RDD的聚合reduceByKey和groupByKey.mp4 │      10-[掌握]-RDD的缓存-持久化.mp4 │      15-[了解]-外部数据源-操作JDBC-读.mp4
2022-04-15 18:11:18 2KB spark
ETHINK可视化挖掘,Spark大数据的实现及行业应用案例
2022-04-15 13:15:04 3.79MB big data spark 大数据
Python大数据处理库 PySpark实战PPT课件
2022-04-15 13:15:03 4.13MB python 开发语言 Spark
1
Python大数据处理库 PySpark实战-源代码
2022-04-15 13:15:02 1.82MB python 开发语言 Spark
1
Apache Spark 基准测试 该项目是硕士论文的成果,旨在成为 Apache Spark 框架的测试平台。 其基本思想是能够在软件和硬件的不同环境中运行该框架,以查看其行为,并将获得的结果与类似的解决方案(如 Hive、Redshift 等)进行比较。 这项工作基于伯克利大学 ( ) 进行的大数据基准测试。 本质上,执行的测试是相似的,只是它们是使用 Apache Spark Java API 完成的,并且还测试了一些额外的配置。 此外,该基准测试不仅可以在 Amazon EC2 上运行,还可以在云和本地的任何集群中运行。 项目执行 项目设置 下面列出并简要说明了项目的一般配置参数。 全局配置属性。 这些配置参数是通用的,会影响项目中开发的所有测试。 apache.benchmark.config.global.master :我们想要运行基准的模式。 如果我们想要在本地执行
2022-04-15 12:15:20 82KB Java
1
Spark大数据的实现及行业应用案例
2022-04-15 09:07:40 3.79MB big data spark 大数据
包含爬虫,Scala代码,Spark,Hadoop,ElasticSearch,logstash,Flume,echarts,log4j
2022-04-14 18:09:34 9.44MB scala elasticsearch spark 数据分析
特征选择示例ddddddddddd
2022-04-14 18:00:48 605KB spark
1
初步推动,需要清理工作,很多 简单流媒体应用 测试Spark流媒体应用程序,以测试测试平台。 不,没有用于测试测试应用程序的应用程序测试。 它尝试连接到localhost:2222上的侦听套接字。 它期望用新行分隔的数字流。 它计算数字的数量及其总和。 计数和总和打印在控制台上。 批处理大小设置为5秒 跑步 从项目文件夹中使用sbt启动主类。 sbt run 试验台 测试台。 执行测试计划,即:根据Typesafe配置文件在套接字上推送数字。 它侦听端口2222,并接受多个并发连接。 在所有连接上发送相同的数据。 可以通过上的基本Web界面给出测试计划,也可以在命令行上以文件形式给出测试计划。 执行测试计划后,命令行工具将终止。 通过Web界面,可以连续运行多个测试计划。 如果新计划仍在运行,它将取代上一个计划。 测试计划如下所示: sequence = [ { ty
2022-04-13 10:35:29 5.85MB Scala
1