网络爬虫 该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分: 提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。 提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。 运行程序是运行爬网的python脚本。 如何启动搜寻 docker-compose build ; docker-compose up -d (等待〜20秒); docker-compose run -v
2021-12-13 09:42:25 50KB JavaScript
1
电影推荐系统 推荐系统(Java,Apache Spark) 在电影镜头1M数据集上使用Apache Spark的交替最小二乘(ALS)算法实施(来自6000名用户的4000个电影的100万评级)实现了协同过滤–模型预测的均方误差(MSE)为0.72,每个用户10条电影推荐。
1
kafka和zookeeper安装包_linux
2021-12-13 09:11:08 91.56MB kafka zookeeper
1
spark-core官方文档
2021-12-12 22:08:42 175KB spark
1
simRank_input_v2.txt
2021-12-12 22:08:41 22KB spark
1
spark-2.4.3-bin-hadoop2.7.zip
2021-12-12 22:08:40 220.5MB spark
1
官方原版hue安装包,下载之需要自己编译,过程虽然麻烦,但是稳定、可靠。官方下载不下来,所以我下载了几个常用版本供大家选择。
2021-12-12 16:51:26 47.88MB hue-4.0 大数据监控 hadoop spark
1
kafka streams in action kafka stream实战 Kafka PDF
2021-12-12 10:40:16 13.7MB kafka  streams
1
kylin mapreduce spark cube计算
2021-12-12 10:05:17 3.44MB kylin cube spark
1
storm链接kafka时需要导入kafka、storm和storm链接kafka的jar包外,还需要这些jar包的支持
2021-12-11 22:03:48 2.47MB storm-kafka
1