java抓取技术源码
多线程爬虫--抓取淘宝商品详情页URL
本项目是一个Java编写的多线程爬虫系统。此系统与我之前开发的结合使用,共抓取了淘宝近3000个页面,从中解析到了近9万的商品详情页URL。
我并没有直接将这些商品详情页中最具价值的数据(商品信息)提取出来,因为这些富有价值的数据对于目前的我来说并不是特别具有吸引力。开发这个项目当初的本意也只是为了锻炼自己开发多线程应用程序的能力,并且真正的与反爬虫做对抗,最终我成功了~
我会将抓取到的数据(近9万商品详情页URL)提供给大家,如果大家需要真正的商品信息,而你们又没有什么好的办法,那么就花半天时间阅读一下此项目的源码吧,最后只要在这个代码的框架上稍作修改,这个多线程爬虫系统将完全满足你们的需求。
环境需求
JDK
1.8
MySQL
Redis
IDEA
Maven
实现架构
包名
功能
database
有关MySQL与Redis数据库的配置类及操作类
httpbrower
发送HTTP请求,接收Response相关类
ipproxypool
IP代理池
mainmethod
Main方法入口
mythread
项目相关线
2022-01-17 09:26:05
39KB
系统开源
1