基于Python Scrapy实现的爬取豆瓣读书9分榜单的书籍数据采集爬虫系统 含数据集和全部源代码 # -*- coding: utf-8 -*- import scrapy import re from doubanbook.items import DoubanbookItem class DbbookSpider(scrapy.Spider): name = "dbbook" # allowed_domains = ["https://www.douban.com/doulist/1264675/"] start_urls = ( 'https://www.douban.com/doulist/1264675/', ) URL = 'https://www.douban.com/doulist/1264675/?start=PAGE&sort=seq&sub_type=' def parse(self, response): # print response.body item = DoubanbookItem() selector = scrapy.Selector(response) books = selector.xpath('//div[@class="bd doulist-subject"]') for each in books: title = each.xpath('div[@class="title"]/a/text()').extract()[0] rate = each.xpath('div[@class="rating"]/span[@class="rating_nums"]/text()').extract()[0] author = re.search('(.*?)
2021-07-10 17:02:47 19KB python scrapy 爬虫 数据采集
豆瓣读书爬虫,保存到excel中(2021.6.28可用)
2021-06-28 11:04:08 7KB 豆瓣读书 excel
这是一个原型产品设计,使用AXURE8.0或更高版本打开,主要内容包括豆瓣所有基本读书功能,以及创新功能,添加好友,好友交互,排行榜,可作为大作业使用
2021-06-12 21:15:11 8.37MB axure8.0 人机交互 豆瓣读书最终版
1
最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析 注意一个比较坑的地方就是豆瓣图书可以没有评分,或者用户评论了但没给评分。而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评分、无评论那种,所以经常输出failed fake_useragent的用法 在这次爬虫中使用了fake_useragent来伪造请求头,因为听说豆瓣的反爬机制比较好 fake_useragent的用法简单如下,random是随机产生一个请求头 from fake_useragent import UserAgent import requests ua=UserAgent()
2021-04-21 09:14:49 194KB 读书 豆瓣
1
爬虫,用来爬取豆瓣读书评论爬虫
2021-04-09 17:05:50 386B 爬虫
1
python 版本 3.6 入门级爬虫,爬取豆瓣读书,需要用到bs4、requests
2021-03-10 21:38:45 3KB python 爬虫
1
静态的豆瓣读书网页,只使用了html+css 忽略了一些细节和重复的问题 没有动态效果,但是布局和原网页差不多,可能边距有些偏差
2020-12-24 08:28:26 1.57MB html css
1
豆瓣读书爬虫 Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书! 更新 最近爬下了豆瓣所有的图书信息(3088633本,2138386KB),并做了一个界面方面与数据库交互来搜罗好书。 注:这里的代码不是爬下所有书籍所用的代码,仅供参考。有机会的时候再公开代码和爬下的所有数据。
2019-12-21 20:28:32 13.59MB 爬虫
1