上传者: 38684976
|
上传时间: 2021-08-24 00:37:02
|
文件大小: 401KB
|
文件类型: PDF
近期想要爬取百度搜索的结果,网上的教程一直没有找到可以直接用的,尝试了几个小时终于摸索出了可以用的代码。
主要的问题在于 url 的形式,之前的教程一般是这种形式:
url = 'https://www.baidu.com/s?' + word + '&pn=0' # word为搜索关键词,pn用来分页
由于百度每个页面显示10条结果,'&pn=n' 表示第 n 条结果,n = 0~9 表示第一页,n = 10~19 表示第二页,以此类推。然而在运行代码时发现这种形式的 url 从第二页开始就无法正常爬取了。关于 url 格式我一直没有搞清楚,但是我摸索出了一种方法能得到可用的 url;
首