推文情感分析
更新(2018年9月21日):我没有积极维护该存储库。 这项工作是针对课程项目完成的,由于我不拥有版权,因此无法发布数据集。 但是,可以轻松修改此存储库中的所有内容以与其他数据集一起使用。 我建议阅读该的,该可在docs/找到。
数据集信息
我们使用和比较各种不同的方法来对推文(二进制分类问题)进行情感分析。 训练数据集应该是tweet_id,sentiment,tweet类型的csv文件tweet_id,sentiment,tweet其中tweet_id是标识该tweet的唯一整数, sentiment是1 (正)或0 (负), tweet是括在""的tweet 。 类似地,测试数据集是tweet_id,tweet类型的csv文件。 请注意,不需要csv标头,应将其从训练和测试数据集中删除。
要求
该项目有一些一般的图书馆要求,而某些则是针对个别方法的。 一般要求如下。
numpy
scikit-learn
scipy
nltk
某些方法特有的库要求是:
带TensorFlow后端的keras ,用于Logistic回归,MLP,RNN(LSTM)和CNN
1