搜索【Kafka Spark】的结果

webcrawler:基于Playwright，RMQ，Kafka和Flink的重点网络爬虫-源码

网络爬虫该存储库包含Otus Data Engineer课程的最终工作的源代码。该项目是专注于Web的爬网程序，可递归地爬网网站。它包含3个部分：提取程序是一个nodejs应用程序。它从frontier RMQ队列中读取URL，在选定的浏览器中打开页面，并将其内容存储在htmls kafka主题（HTML）和screenshots minio bucket（PNG）中。提取程序是flink作业。它从htmls kafka主题中读取HTML文档，提取内部链接并将其推入frontier RMQ队列。该服务还实现了使用MapState消除重复URL（DUE）的逻辑。运行程序是运行爬网的python脚本。如何启动搜寻 docker-compose build ; docker-compose up -d （等待〜20秒）; docker-compose run -v

2021-12-13 09:42:25 50KB JavaScript

1

Movie-Recommender-System:推荐系统（Java，Apache Spark）-源码

电影推荐系统推荐系统（Java，Apache Spark）在电影镜头1M数据集上使用Apache Spark的交替最小二乘（ALS）算法实施（来自6000名用户的4000个电影的100万评级）实现了协同过滤–模型预测的均方误差（MSE）为0.72，每个用户10条电影推荐。

2021-12-13 09:30:29 5KB apache-spark collaborative-filtering java8 recommender-system

1

kafka和zookeeper安装包_linux.zip

kafka和zookeeper安装包_linux

2021-12-13 09:11:08 91.56MB kafka zookeeper

1

spark官方文档.docx

spark-core官方文档

2021-12-12 22:08:42 175KB spark

1

simRank_input_v2.txt

2021-12-12 22:08:41 22KB spark

1

spark-2.4.3-bin-hadoop2.7.zip

2021-12-12 22:08:40 220.5MB spark

1

hue-4.0大数据监控利器

官方原版hue安装包，下载之需要自己编译，过程虽然麻烦，但是稳定、可靠。官方下载不下来，所以我下载了几个常用版本供大家选择。

2021-12-12 16:51:26 47.88MB hue-4.0 大数据监控 hadoop spark

1

Kafka Streams1.zip

kafka streams in action kafka stream实战 Kafka PDF

2021-12-12 10:40:16 13.7MB kafka streams

1

使用 MapReduce/Spark 进行 Cube 计算的原理及过程

kylin mapreduce spark cube计算

2021-12-12 10:05:17 3.44MB kylin cube spark

1

storm链接kafka时需要的jar包

storm链接kafka时需要导入kafka、storm和storm链接kafka的jar包外，还需要这些jar包的支持

2021-12-11 22:03:48 2.47MB storm-kafka

1

个人信息

热门下载

最新下载

其他资源