酒店系统java源码
Sentiment-Analysis
本项目主要内容说明
本项目是基于java实现的本科毕设。首先从亚马逊中文网站爬取了关于“手机”的评论,然后对其进行情感分类。使用用户标记的星级作为情感类别,将这些评论分为了3类(与星级对应关系为1-{1,2},2-{3},3-{4,5})和5类(与星级一一对应)。预处理包括字符处理(包括全角转半角、过滤无关符号,主要为了避免特征稀疏)以及发现新词、分词、删除停用词,使用的主要分类方法是朴素贝叶斯,特征选择方法包括信息增益(Information
Gain,IG)和文档频率(Document
Frequency,DF)以及它们的结合。
分类效果:对亚马逊评论三分类F1值效果为
79.72%,
五分类效果为
63.63%。为了进一步检验,使用本文分类器对tanh松波酒店评论进行二分类,使用信息增益筛选特征,最好情况下,
precision、
recall、
F1
值分别达到了
85.89%、
82.33%、
84.07%.
本项目又进一步增加了卡方统计和互信息的特征选择方法,并进行了对比分析。以此为基础,在《计算机应用》发表了。并
2022-05-15 16:43:44
69.85MB
系统开源
1