本爬虫是根据GitHub开源项目WeiboSpider自改而来。
改动方面:
1,增加了关键词爬虫,可以根据设置的关键词列表获取近期有关的微博内容(默认为50页),爬取的字段符合该项目其他功能的要求。
2,爬取的逻辑为,关键词到微博到评论到用户关系,将原来的本地CSV读取改为数据库操作,增加了爬虫的效率和数据的可分析性。
3,将时间戳改为人类可读的时间。
4,其他一些细小的方面。
适合的人群:
1,对爬虫技术感兴趣的人
2,需要分析微博数据的人
注:readme文档为源代码的文档,要查看关键词爬虫,请看spider下的keyword.py。并更改相关数据库名称,和cookie。