本文档中包含了采用Scrapy框架的爬虫源码,数据可视化源码,与爬取的json数据(大约3万多条),以及生成的可视化图表。
2021-10-29 09:54:30 1.92MB Python 爬虫 scrapy 数据可视化
1
代码所需包进入前程无忧官网我这里以搜索大数据职位信息打开开发者模式RequestHeaders里面是我们用浏览器访问网站的信息,有了信息后就能模拟浏览器访问这也是为了防止网站封禁IP,不过前程无忧一般是不会封IP的。模拟浏览器这些基本数据都可以爬取:为了实现交互型爬取,我写了一个能够实现输入想了解的职位就能爬取相关内容的函数这里我除了爬取图上信息外,还把职位超链接后的网址,以及公司超链接的网址爬取下来了。这里先不讲,后面后面会说到,接下来就需要储存信息,这里使用Excel,虽然比较麻烦,不过胜在清晰直观爬取代码如下,这里就能利用双层循环来实现换页爬取与换行输出我这里为了获得大量数据所以爬取了1
2021-08-09 16:21:26 951KB Python爬虫与数据可视化
1