上传者: 42906583
|
上传时间: 2021-05-06 12:22:27
|
文件大小: 214KB
|
文件类型: PDF
为了快速地获取到海量微博中的数据,根据微博网页的特点,提出了一种基于Python爬虫程序设计方法.通过模拟登录新浪微博,实时抓取微博中指定用户的微博正文等内容;该工具利用关键词匹配技术,匹配符合规定条件的微博,并抓取相关内容;最后使用该工具对部分微博数据作了一个关于雾霾问题的分析.实验结果表明:本程序具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的研究者提供了快速获取微博的方法,有利于对微博的后续数据挖掘研究.