scrapy-zhihu-user
介绍
毕业设计练习项目,在Python3环境下,使用scrapy借助scrapyd,scrapy_redis,gerapy等实现分布式爬取知乎用户信息,然后将信息存储在mongodb中。
在本地Ubuntu16.04和阿里云Ubuntu14.04测试通过。
使用的库&&反爬
整体框架为scrapy,官网和使用方法见.
分布式和存储去重使用scrapy_redis.
部署使用和,scrapyd安装和使用办法查看,gerapy是免去命令行操作远程部署和查看,是崔庆才大大的作品,本项目也是基于他的视频来做的,gerapy介绍和使用方法在这里.
防反爬措施1:动态修改useragent(使用fake_useragent库),安装和使用看这里
防反爬措施2:使用IPProxyPool辅助爬取的免费代理,借助random动态更换IP(可使用率极低,推荐收费代理)。安
1