CNKI_download 中国知网爬虫
项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。
实现过程可以查看
程序运行如下:
详细信息excel表格如下:
下载caj如下:
特点
通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。
可使用知网高级检索功能进行搜索,更高效检索文献。
可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。
利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。
使用方法
安装依赖
在验证码处理部分使用了tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。
如果本地没有安装tesseract,可以先安装这个,再执行pip install tesserocr
2021-09-15 21:09:40
14KB
Python
1