使用Amazon评论进行情感分析
概述
使用Jure Leskovec在18年中收集集,我们创建了一个情感字典,其中包含97,436个唯一单词,它们对应于零中心浮点情感得分。
过程
我们首先对语料库中的数据进行预处理,以删除多余的信息。 我们仅使用评论文本和每个评论的星级评分。 经过预处理后,我们使用MapReduce计算每个星级(从1到5)中每个单词的频率。获得每个单词的频率后,我们编写了一种情感算法来计算每个单词的情感分数。
结果
正面的话
单词
情感分数
好的
0.152603809091
伟大的
3.78021467713
惊人的
6.8840020218
惊人
6.54080771437
完美的
5.78771983374
非同凡响
5.72747983897
精彩的
6.05087919002
最好的
3.2653374328
否定词
单词
情感分数
坏的
-5.
2021-08-18 00:25:22
1.21MB
Python
1