上传者: 42097208
|
上传时间: 2021-02-03 09:37:34
|
文件大小: 5.95MB
|
文件类型: ZIP
带有Web UI的分布式多用户Scrapy系统
这是一个Django项目,允许用户通过Web界面创建,配置,部署和运行Scrapy Spiders。 该项目的目标是构建一个应用程序,该应用程序将允许多个用户编写自己的抓取脚本,并将其部署到一组工人中,以分布式方式进行抓取。 该应用程序允许用户通过Web界面执行以下操作:
创建一个Scrapy项目
添加/编辑/删除草率项目
添加/编辑/删除Scrapy项目管道
编辑链接生成器功能(有关更多信息,请参见下文)
编辑刮板功能(有关此内容,请参见下文)
将项目部署到工作机
在工作机上启动/停止项目
显示工作机,数据库和链接队列的联机状态
显示项目的部署状态
显示报废的数量
显示刮时项目中发生的错误数
显示项目的开始/停止日期和时间
建筑
该应用程序捆绑了用于MongoDB的Scrapy管道(用于保存被抓取的项目)和用于RabbitMQ的Scrapy调度程序(用于在工作人员之间分配链接)。 这些代码是从和获取并改编的。 这是运行应用程序所需的内容:
MongoDB服务器(可以是独立群集或分片群集,副本集未经测试)
RabbitMQ服务器