酱菜Seven7原创,转载请注明出处。
使用的手段:数据库Mysql, 语言python,正则表达式re
在获取了评论url的情况下(获取京东评论的url方法),现在我们可以来爬取用户昵称和url了。作为一个初学者,我用的正则表达式,来对那url的数据,进行匹配获取。
一、根据内容,编写合适的正则表达式
通过分析打开的url地址的数据,我们可以找到所需的两个规律:
1、用户昵称部分:
所以,我们针对提取用户的正则表达式如下:
r'\"nickname\":\"([^",]+)\",\"replyCount2\"'
2、评论部分:
评论部分,因为会有无追评,而造成结尾不一致:
情况一:
情
1