DoubanBookSpider
抓取豆瓣的书籍信息并持久化到mysql数据库
这个爬虫的思路主要受@lanbing510 的启发,不同的是实现方面我自己用了requests库,持久化用了mysql,另外添加了日志模块logging。在应对豆瓣反爬虫方面,由于不想买收费代理,而我自己又是ADSL拨号上网,所以一旦检测到豆瓣返回403,就主动断开路由连接,重连获取新的ip。
以下介绍一下思路和实现。
一、爬虫思路及架构
通过观察豆瓣网书籍的具体页面,我们可以发现,具体书籍网址的组成形式为:
其中bookid为具体的数字。第一种思路是设定一个比较大的数字,然后从1到这个数字的范围之内去遍历所有数字对应的网址,但是我们可以发现,这些书的id往往非常大,基本都是百万级别的数字,一个个去撞库非常不现实。
其实每本书都有很多标签,每个标签都汇集了同一类的所有书,要是可以获取到所有标签,然后根据这些标签
2022-12-15 18:22:07
37KB
Python
1