上传者: ionce
|
上传时间: 2021-11-06 20:07:42
|
文件大小: 6KB
|
文件类型: -
python爬虫实战,爬取拉勾网全站职位(CrawlSpider),思路如下:
1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多,要变的就是那一串数字,编写正则表达式匹配就好。
2.除了首页还有其他地方也能找到这样的url,所以我先匹配职位分类的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最终的url。
3.scrapy会自动去重。