知网
* 通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。
* 可使用知网高级检索功能进行搜索,更高效检索文献。
* 可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。
* 利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。
# 使用方法
## 安装依赖
>在验证码处理部分使用了`tesserocr`,不过验证效果目前不是很好,所以默认开启手动识别验证码。
>
>如果本地没有安装`tesseract`,可以先安装这个,再执行`pip install tesserocr`。或者将`CrackVerifyCode.py`文件第15、63、64行注释后再执行安装命令。
```shell
pip install -r requirements.txt
```
2024-04-10 11:33:29
19KB
爬虫
1