Python大数据处理库 PySpark实战-源代码
2022-04-15 13:15:02 1.82MB python 开发语言 Spark
1
Apache Spark 基准测试 该项目是硕士论文的成果,旨在成为 Apache Spark 框架的测试平台。 其基本思想是能够在软件和硬件的不同环境中运行该框架,以查看其行为,并将获得的结果与类似的解决方案(如 Hive、Redshift 等)进行比较。 这项工作基于伯克利大学 ( ) 进行的大数据基准测试。 本质上,执行的测试是相似的,只是它们是使用 Apache Spark Java API 完成的,并且还测试了一些额外的配置。 此外,该基准测试不仅可以在 Amazon EC2 上运行,还可以在云和本地的任何集群中运行。 项目执行 项目设置 下面列出并简要说明了项目的一般配置参数。 全局配置属性。 这些配置参数是通用的,会影响项目中开发的所有测试。 apache.benchmark.config.global.master :我们想要运行基准的模式。 如果我们想要在本地执行
2022-04-15 12:15:20 82KB Java
1
Spark大数据的实现及行业应用案例
2022-04-15 09:07:40 3.79MB big data spark 大数据
包含爬虫,Scala代码,Spark,Hadoop,ElasticSearch,logstash,Flume,echarts,log4j
2022-04-14 18:09:34 9.44MB scala elasticsearch spark 数据分析
特征选择示例ddddddddddd
2022-04-14 18:00:48 605KB spark
1
初步推动,需要清理工作,很多 简单流媒体应用 测试Spark流媒体应用程序,以测试测试平台。 不,没有用于测试测试应用程序的应用程序测试。 它尝试连接到localhost:2222上的侦听套接字。 它期望用新行分隔的数字流。 它计算数字的数量及其总和。 计数和总和打印在控制台上。 批处理大小设置为5秒 跑步 从项目文件夹中使用sbt启动主类。 sbt run 试验台 测试台。 执行测试计划,即:根据Typesafe配置文件在套接字上推送数字。 它侦听端口2222,并接受多个并发连接。 在所有连接上发送相同的数据。 可以通过上的基本Web界面给出测试计划,也可以在命令行上以文件形式给出测试计划。 执行测试计划后,命令行工具将终止。 通过Web界面,可以连续运行多个测试计划。 如果新计划仍在运行,它将取代上一个计划。 测试计划如下所示: sequence = [ { ty
2022-04-13 10:35:29 5.85MB Scala
1
spark流式读取kafka的数据
2022-04-12 19:04:46 11.7MB kafka spark big data
1
ClickHouse中文文档
2022-04-11 21:03:27 4.13MB ClickHouse
1
基于Clickhousev22.4.1.1版本编译, CPU无需支持sse4.2、pclmulqdq、popcnt,也可使用该版本Clickhouse。 使用方法:直接运行该脚本即可 注:需要将glibc升级到2.31以上才能运行该脚本,升级方法可以参考https://www.bianchengquan.com/article/397316.html,实测可用。
2022-04-11 21:03:25 508.2MB Clickhouse SSE4.2 pclmulqdq popcnt
1
音乐推荐系统 一种音乐推荐系统,可根据用户的收听历史向他们推荐新的音乐艺术家。 交替最小二乘(ALS)学习算法用于底层后端实现。 该系统已针对来自音乐流开放源代码服务Audioscrobbler的数据进行了培训和测试。
2022-04-11 21:00:29 726KB 系统开源
1