Python知乎回答多线程爬虫

上传者: 44510615 | 上传时间: 2021-06-22 10:03:31 | 文件大小: 4KB | 文件类型: ZIP
### 知乎回答多线程爬虫 **模式** 1. 单问题爬取模式 2. 相似问题爬取模式 **输出** ​ **文件名** 问题题目 ​ **文件内容** 1. 问题 2. 问题id 3. 回答者昵称 4. 回答者空间id 5. 回答者id 6. 回答者内容 **单问题爬取模式** **功能** 主要通过用户提供的问题id,爬取单个问题下的所有回答 **相似问题爬取模式** **功能** 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的**相关问题**进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。 **bug** 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码) **优点** 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。 **缺点** 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。 **技术栈:** 1. requests 2. re 3. json 4. time 5. threading **未来** 关于知乎的爬取,我这里还有一个存货——爬取知乎文章中的表情包(gif,png,jpg),这样就可以愉快的收集表情包了。同时我也尝试着去做了一下对知乎用户数据的爬取,但还为成功。

文件下载

资源详情

[{"title":"( 2 个子文件 4KB ) Python知乎回答多线程爬虫","children":[{"title":"zhihuAnswerSpider","children":[{"title":"zhihu_answer.py <span style='color:#111;'> 9.40KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 1.49KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

  • qq_16181543 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-11-18
  • weixin_44096658 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-09-03

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明