曾尝试各种方法,没有效果。使用的是函数requests.get(),已写header、cookie、User-Agent,也写了rsp.encoding = rsp.apparent_encoding。
但是仍是爬取不了。奇怪的同一个网站同一个榜单,只是页数不同,前若干页能爬取,后若干页就爬取不了,一度怀疑是不允许爬。
最后终于发现原因!
因为Cookie找错了(kao!!!!!)
注意要用这里的cookie!
(下图是Chrome的开发者工具视图)
用requests.get()的标准格式:
【仅为个人总结】
# 伪装成浏览器,防止封ip
headers = {
'User
1