基于Scrapy框架的Python3就业信息Jobspiders爬虫
Items.py : 定义爬取的数据
pipelines.py : 管道文件,异步存储爬取的数据
spiders文件夹 : 爬虫程序
settings.py : Srapy设定,请参考
scrapy spider
爬取三大知名网站,使用三种技术手段
第一种直接从网页中获取数据,采用的是scrapy的基础爬虫模块,爬的是51job
第二种采用扒接口,从接口中获取数据,爬的是智联招聘
第三种采用的是整站的爬取,爬的是拉钩网
获取想要的数据并将数据存入mysql数据库中,方便以后的就业趋势分析
实现功能:
从三大知名网站上爬取就业信息,爬取发布工作的日期,薪资,城市,岗位有那些福利,要求,分类等等,并将爬到的数据存到mysql数据库中
使用教程:
运行前需要安装的环境
Python3 Ubantu16.04自带,sudo ap
1