[TOC]
Introduction
最近需要新浪微博的数据做研究,苦于找不到满意的数据,新浪微博的API对数据的获取有限制,也找不到合适的爬虫代码,遂自己实现了一个爬取新浪微博的爬虫。
爬取的数据是 新浪微博搜索某一个话题,得到的微博数据,下面是爬取到的有关苹果手机的微博示例:
之前也爬取过 ,但是好久没有再练手了,发现遗忘了很多知识点,加上新浪微博对爬虫的嗅觉异常灵敏,导致中间遇到了非常多的坑,不过好在大多数的问题,都已经解决了。所以今天索性总结一下,如果以后再写爬虫,可以拿来参考。
另外,我不是写爬虫的专家,对python的语法也不是很熟悉,也没有用scrapy这种爬虫工具(感觉用不到,因为爬虫的思想还是很简单的),所以写出来的爬虫应该比不上专业的水准,最后我会共享该程序的源码。
本文涉及的主要知识点有如下几个,其顺序大概是我写爬虫的步骤:
选择合适的爬取源
分析生成要爬取网站的u
2022-01-03 19:36:24
9.19MB
HTML
1