Spark概述 Spark概述Spark概述Spark概述Spark概述Spark概述Spark概述
2021-12-13 21:51:36 1.59MB Spark概述
1
spark Streaming的原理介绍和与storm的对比
2021-12-13 17:52:07 1.72MB spark Streaming storm
1
主要介绍了spring-cloud-stream结合kafka使用详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
1
网络爬虫 该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分: 提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。 提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。 运行程序是运行爬网的python脚本。 如何启动搜寻 docker-compose build ; docker-compose up -d (等待〜20秒); docker-compose run -v
2021-12-13 09:42:25 50KB JavaScript
1
电影推荐系统 推荐系统(Java,Apache Spark) 在电影镜头1M数据集上使用Apache Spark的交替最小二乘(ALS)算法实施(来自6000名用户的4000个电影的100万评级)实现了协同过滤–模型预测的均方误差(MSE)为0.72,每个用户10条电影推荐。
1
kafka和zookeeper安装包_linux
2021-12-13 09:11:08 91.56MB kafka zookeeper
1
spark-core官方文档
2021-12-12 22:08:42 175KB spark
1
simRank_input_v2.txt
2021-12-12 22:08:41 22KB spark
1
spark-2.4.3-bin-hadoop2.7.zip
2021-12-12 22:08:40 220.5MB spark
1
官方原版hue安装包,下载之需要自己编译,过程虽然麻烦,但是稳定、可靠。官方下载不下来,所以我下载了几个常用版本供大家选择。
2021-12-12 16:51:26 47.88MB hue-4.0 大数据监控 hadoop spark
1