最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析
注意一个比较坑的地方就是豆瓣图书可以没有评分,或者用户评论了但没给评分。而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评分、无评论那种,所以经常输出failed
fake_useragent的用法
在这次爬虫中使用了fake_useragent来伪造请求头,因为听说豆瓣的反爬机制比较好
fake_useragent的用法简单如下,random是随机产生一个请求头
from fake_useragent import UserAgent
import requests
ua=UserAgent()
2021-04-21 09:14:49
194KB
读书
豆瓣
1