前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员。
在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息。
数据格式:{“name”:评论人姓名,”comment_time”:评论时间,”comment_info”:评论内容,”comment_url”:评论人的主页}
以上就是我们需要的信息。
爬虫前的分析:
以上是杨超越的微博主页,这是我们首先需要获取到的内容。
因为我们需要等到这个主页内这些微博详情页 的链接,但是我们向下刷新,会发现微博的主页信息是ajax动态加载出来的,
这张图片就是我们向下刷新获取到 的新的链接,这个就是我们需要获取
1