代码所需包进入前程无忧官网我这里以搜索大数据职位信息打开开发者模式RequestHeaders里面是我们用浏览器访问网站的信息,有了信息后就能模拟浏览器访问这也是为了防止网站封禁IP,不过前程无忧一般是不会封IP的。模拟浏览器这些基本数据都可以爬取:为了实现交互型爬取,我写了一个能够实现输入想了解的职位就能爬取相关内容的函数这里我除了爬取图上信息外,还把职位超链接后的网址,以及公司超链接的网址爬取下来了。这里先不讲,后面后面会说到,接下来就需要储存信息,这里使用Excel,虽然比较麻烦,不过胜在清晰直观爬取代码如下,这里就能利用双层循环来实现换页爬取与换行输出我这里为了获得大量数据所以爬取了1
1