资料集
用于训练和验证模型的Twitter数据集是密歇根大学Kaggle竞赛数据集和Neik Sanders创建的“ Twitter情感语料库”的组合。 这些数据集总共包含1,578,627条标记为正或负的推文。 您可以获取数据集!
我们还在嵌入层中使用了GloVe(单词表示的全球向量)进行了预训练。(您可以下载Twitter的Glove ^^
火车
我们通过多种方式处理数据,例如:
URL被标记替换。
连续重复两次以上的任何字母都将被该字母的2次重复替换(例如,“ sooooo”被替换为“ soo”)
使用dicos数据集修复错误的单词
几个表情符号被代币替换
所有推文均小写。
我们结合使用LSTM和CNN
结果
我们得到的准确性因素到83,7%,在这种高8.5%, 用相同的数据集。
注意:该项目中的所有文件都在运行
1