pkulaw_spider
爬取北大法宝网
1.打开网站,导航栏点击司法案例,看左边法律文档按案由分类,可以看见大概一共2kw左右的文书,实时与裁判文书网同步更新。
2.可以看见文书案例顶部有筛选条件,可以按照日期、法院等筛选。(本爬虫按照日期爬取所有的文书)
3.分析网站内容时发现,点击下一页按钮地址栏的链接并无变化,属于动态网页。
4.使用浏览器自带抓包工具或者fidder,点击下一页按钮,查看http请求。
5.发现记录由/Recod传送,该请求即是需要模拟的请求link,使用requests模拟浏览器直接请求数据库,带上浏览器headers和post data
6.分析得到的url,可以发现start和end参数,我们修改其为我们所需的日期范围。
7.pagesize我们设置为1000,太小页数过多,太大网页加载太慢。pageIndex为页号,其它参数默认。
8.模拟请求数据库,得
1