该项目主要分为两个部分,一部分为网络爬虫,另一部分为文本情感分析。网络爬虫主要爬取了京东以及淘宝的评论数据,爬取京东评论采用了selenium,淘宝的话反爬虫措施确实比较到位,目前只能根据已有的评论链接进行爬取。文本情感分析采用了情感词典和SnowNLP两种方式,当然SnowNLP的准确率和召回率较高。最后使用tkinter做图形界面将二者的逻辑串联起来,即用户输入一个京东商品的链接,软件解析链接并爬取评论,将评论显示在表格中,并通过词云展示给用户;同时,SnowNLP分析所有评论,将好评及差评数目统计下来。
2021-04-23 17:04:25
14.78MB
爬虫