上传者: 46550847
|
上传时间: 2022-07-01 21:03:39
|
文件大小: 10.81MB
|
文件类型: RAR
1.对微博的高校舆情话题进行爬取并保存,内容包括用户名、发布时间、发布内容、点赞数、评论数、转发数。
2.对爬取的信息进行去重和预处理,去掉爬取到的内容相同的博文,并将博文内容中的话题、用户名过滤掉,以便进行词频统计。
3.对经过预处理的数据进行分词和词频统计,生成词云图。
4.先对五百多条数据进行人工标记作为训练集,再将所有数据都进行标记以便计算准确率,随后运行程序对所有数据进行贝叶斯情感倾向分析,根据分析结果和人工标记结果进行对比,计算准确率。
5.对实验方法进行分析和改进,或提出改进方案。
包含源码:爬虫+分词+数据预处理+词云+朴素贝叶斯情感倾向分析+可视化结果显示