该项目已不再维护
前提说明
1.拉勾网搜索页面一般都只展示30页、每页15个职位信息,一次搜索约450条
2.拉勾网反爬虫机制更新频繁,直接解析Ajax请求容易触发反爬虫机制(提示:”msg”:”您操作太频繁,请稍后再访问”),浏览器也无法访问。
3.解析这个Ajax请求前发起GET请求获取当前会话session, 可在某程度上解决第2点, 但在频繁请求后仍会触发反爬虫机制, 被Ban IP
开发设计
1.可构建大量代理IP池, 通过不断更换代理IP的方式, 解析Ajax请求进行爬取
2.亦可使用 selenium 浏览器自动化测试框架驱动谷歌浏览器, 模拟人使用浏览器查看网页的过程获取数据
3.此程序使用第2点解决方案, 使用 selenium 模拟人操作
4.搜索页和详情页请求过快便会跳出来登录页面, 连续请求10个详情页也会弹出登录页面, 因此此程序需要登录
5.在第一次登录后将保存
2021-08-26 14:54:29
1.09MB
HTML
1