Web枫
以webmagic为内核的分布式可视化爬虫框架,参考webmagic-avalon的架构,目标是提供可分散部署的爬虫框架,以及可视化的爬虫管理界面。
目前分为三个模块:
maple-admin,为webmagic-avalon中的管理员中断,对应一个java进程。负责:
与多个worker通信,监听worker的幸存;
从工人处获得当前爬虫信息,并在前端页面展示;
调用worker的接口创建爬虫。
它是一个Springboot项目,可以直接打包上传到服务器并启动。
maple-worker,为worker承包商,对应一个java进程。一台机器上可部署多个worker。负责:
具体爬虫(spider)的创造和管理;
向管理员异步发送心跳包确保自己的存活。
它和管理员一样是可以直接打成jar包部署的。
枫木网络,为网络通信部分的通用模块。
1