蜘蛛
一。简介
通过spring boot建造的爬虫系统
二。技术选型
spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁
elasticSearch:作为nosql数据存储引擎
elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同
WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器
三。运行方式
先启动zookeeper和elasticsearch ,并修改相应配置,然后按下面任意方式启动项目
方式一:执行命令mvn spring-boot:run立即启动
方式二:maven打成jar包后,将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war
方式三:部署在tomcat中直接运行
四。
2021-12-09 10:09:20
277KB
系统开源
1