爬虫python入门
个获取知乎用户主页信息的多线程Python爬虫程序。
简介:
* 使用[Requests](http://www.python-requests.org/en/master/)模拟HTTP请求/响应,[Beautiful Soup 4](https://www.crummy.com/software/BeautifulSoup/)提取页面信息。
* 使用Python内置的Thread多线程和IP代理提升爬取速度,并绕过知乎的反爬虫机制。
* 使用Python内置的query作为消息队列。
* 用csv文件存储数据。
## 环境依赖
* beautifulsoup4
* requests
## 使用方法
在项目路径下输入以安装需要的模块:
```shell
$ pip install -r requirments.txt
```
打开proxy.py文件,在""处填写代理隧道验证信息:
```python
# 代理隧道验证信息
proxyUser = ""
proxyPass = ""
```
(笔者使用一个IP代理隧道,若需要使用普通IP代理,
1