作为爬虫小白,代码偏向简单,大佬勿喷~
本次使用语言:Python
本次使用库:requests、wordcloud、jieba
思路
通过尝试,在网页版微博死活找不出文本url(可能是能力有限),在移动端微博找到了,所以推荐大家爬取移动端微博数据。
移动端微博网址:https://m.weibo.cn/
1.此次爬取的是“方方”的文本,进入开发者模式,找到名为”getIndex…“的接口。可以看到Preview里有id和text。
2.进入此url,发现没有中文text,对此疑惑不解。搜索id发现有多个匹配,推断id为微博的编号。
此外,在url后加上”&page=”可以实现翻页。
3.
2022-02-27 20:56:55
1.04MB
实战
数据
爬虫
1