浅尝python网络爬虫,略有心得。有不足之处,请多指正
url = https://wenshu.court.gov.cn/
爬取内容:裁判文书
爬取框架:scrapy框架 + selenium模拟浏览器访问
开始想暴力分析网页结构获取数据,哈哈哈哈哈,天真了。看来自己什么水平还真不知道。
之后锁定pyspider框架,搞了四五天。该框架对于页面超链接的连续访问问题,可以手动点击单个链接测试,但是通过外部“run”操作,会获取不到数据。其实最后发现很多博客说pyspider的官网文档已经很久没有更新了,企业、项目一般都会用到scrapy。scrapy框架结构如下图:
代码为爬取前两页数
2021-09-28 22:23:23
319KB
c
last
le
1