java实现可配置爬虫源码
MagicToe
MagicToe是一个基于Java爬虫框架的Java爬虫实战案例,MagicToe提供了从获取数据到数据持久化、可视化分析以及构建简单的代理池等一系列完整流程,旨在为初涉Java爬虫的程序员提供一个参考教程和一整套完整的解决方案。
仓库目录
:爬虫功能实现模块,使用WebMagic
+
SpringBoot
+
MyBatis基础架构,NLP工具包是,定制抽取逻辑,将爬取的数据持久化到MySQL数据库中,本仓库中的代码示例爬取的是虎扑步行街。
:数据分析及可视化模块,使用Spring
+
SpringMVC
+
MyBatis的基础架构,数据可视化采用的前端技术是
jsp
+
。
(可选):爬取代理网站模块,技术选型同hupu-spider,将代理网站上的免费代理地址爬取到本地数据库中,实现一个简单的IP池,以供hupu-spider作为代理使用。
QuickStart
爬虫模块环境准备:
JDK
1.8+
maven
4.0.0+
webmagic
0.7.3+
ansj_seg
5.1.1+
springboot
1.5.7+
myba
2021-08-12 17:45:50
36.14MB
系统开源
1