自关注与文本分类
本仓库基于自关注机制实现文本分类。
依赖
Python 3.5
凯拉斯
数据集
IMDB影评高度分类数据集,来自IMDB的25,000条影评,被标记为正面/纵向两种评价。影评已被预先为词下标构成的序列。方便起见,单词的下标基于它在数据集中出现的频率标定,例如整数3所编码的词为数据集中第3常出现的词。
按照惯例,0不代表任何特定的词,而编码为任何未知单词。
用法
训练
$ python imdb_attention.py
比较结果
算法
训练时间(每纪元)
Val准确率
Val损失
所需Epoch数
LSTM
116秒
0.8339
0.3815
2
双向LSTM
1