上传者: 42102634
|
上传时间: 2021-12-13 09:42:25
|
文件大小: 50KB
|
文件类型: -
网络爬虫
该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分:
提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。
提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。
运行程序是运行爬网的python脚本。
如何启动搜寻
docker-compose build ;
docker-compose up -d (等待〜20秒);
docker-compose run -v