上传者: 42123237
|
上传时间: 2021-10-04 01:11:00
|
文件大小: 876KB
|
文件类型: -
zhihu说明文档
介绍
zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容,爬虫框架使用scrapy,数据存储使用mongo。由于知乎话题的问答内容信息巨大(亿级数据量),这里只是爬取了话题广场的“阅读”话题下的所有子话题下的精华问题与回答的相关信息。
代码说明
运行环境
Windows 10 专业版
Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7
依赖包
Requests
Pymongo
Faker(随机切换User-Agent)
其它
知乎话题广场有33个父话题,每个父话题有不同数量的子话题,每个子话题下又有很多的精华问题,每个精华问题下有不同数量的回答,如果想要完全爬取所有的问答,由于数据量太大,耗时太久。这里选择了“阅读”话题进行数据爬取。知乎的子话题、精华问答的内容都是采用动态加载的方法进行更新获取的,在分析了其动态加载链接后,