本地开发和运营 依存关系 确保您已将Python 2.7和pip一起安装。 然后运行: pip install -r requirements.txt 正在运行的工作 使用中央作业运行程序模块src/index.py运行所有作业。 您完全不需要编辑此文件。 python src/index.py 参数: src/spark_jobs.py定义的作业功能名称 生成的簇数 数据文件的文件路径(可以是项目中的绝对路径或本地路径) 这些作业可以占用多个文件。 这些应仅附加到命令中。 例如: python src/index.py user__reputation__to__upvotes_cast 3 tests/fixtures/users.xml 新增工作 所有作业均从src/s
2021-11-22 02:29:49 3.4MB python spark clustering pyspark
1
本文档描述了akka的作用及原理,及服务端和客户端之间的通信赋代码
2021-11-21 23:23:25 259KB spark akka
1
Algorithm-dijkstra-hadoop-spark.zip,dijkstra算法-python hadoop streaming和pyspark,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
2021-11-21 02:09:31 1.45MB Algorithm
1
统一监控平台方案(日志监控、方法监控、调用链路监控) 包含flume采集数据、kafka缓存数据、spark计算、es索引数据
2021-11-19 12:51:09 588KB flume kafka spark elasticsearc
1
带有PySpark的Spark和Python用于大数据:Spark机器学习项目
2021-11-18 17:27:38 117KB JupyterNotebook
1
可用于大文件的哈希 (function (factory) { if (typeof exports === 'object') { // Node/CommonJS module.exports = factory(); } else if (typeof define === 'function' && define.amd) { // AMD define(factory); } else { // Browser globals (with support for web workers) var glob; try { glob = window; } catch (e) { glob = self; } glob.SparkMD5 = factory(); } }
2021-11-18 10:47:15 23KB 哈希
1
本文件是我的博客中的《Spark Streaming项目实战》一文中所用到的数据集,如果有小伙伴想实现我的博客实战项目的两个需求,需要下载这个文件。欢迎大家下载!
2021-11-17 21:40:10 5KB Spark Streaming
1
.Spark及其生态圈简介
2021-11-17 19:24:38 1.1MB .Spark
1
kafka与streaming配置与开发文档001. kafka版本为kafka_2.10-0.8.2.0 spark版本为1.3.0
2021-11-17 17:43:07 28KB kafka streaming
1
资料很全面,包含了市面上所有的spark的性能问题,具有参考价值。
2021-11-17 15:53:52 931KB 11111
1