对应我的两篇博文: https://blog.csdn.net/zengraoli/article/details/105789865 https://blog.csdn.net/zengraoli/article/details/105790189
2022-12-26 10:22:03 87KB Python网络爬虫 数据分析 scrapyd gerapy
1
scrapy-zhihu-user 介绍 毕业设计练习项目,在Python3环境下,使用scrapy借助scrapyd,scrapy_redis,gerapy等实现分布式爬取知乎用户信息,然后将信息存储在mongodb中。 在本地Ubuntu16.04和阿里云Ubuntu14.04测试通过。 使用的库&&反爬 整体框架为scrapy,官网和使用方法见. 分布式和存储去重使用scrapy_redis. 部署使用和,scrapyd安装和使用办法查看,gerapy是免去命令行操作远程部署和查看,是崔庆才大大的作品,本项目也是基于他的视频来做的,gerapy介绍和使用方法在这里. 防反爬措施1:动态修改useragent(使用fake_useragent库),安装和使用看这里 防反爬措施2:使用IPProxyPool辅助爬取的免费代理,借助random动态更换IP(可使用率极低,推荐收费代理)。安
2021-09-18 15:31:51 15KB scrapy scrapyd gerapy Python
1
Gerapy- 基于Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分布式爬虫管理框架
2021-05-05 22:12:40 19.27MB Python开发-机器学习
1