上传者: 38687505
|
上传时间: 2022-07-15 19:24:29
|
文件大小: 49KB
|
文件类型: PDF
python 爬虫解决403禁止访问错误
在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块
urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=http://blog.csdn.NET/qysh123对于这个连接就有可能出现403禁止访问的问题
解决这个问题,需要以下几步骤:
req = urllib2.Request(url)
req.add_header(User-Age