传统文本分类使用word embedding作为文档表示,忽略词在当前上下文的含义,潜在地认为相同词在不同文本中含义相同。针对此问题提出一种词义消歧的卷积神经网络文本分类模型——WSDCNN(word sense disambiguation convolutional neural network)。使用双向长短时记忆网络(BLSTM)建模上下文,得到词义消歧后的文档特征图;利用卷积神经网络(CNN)进一步提取对文本分类最重要的特征。在四个数据集上进行对比实验,结果表明,所提出方法在两个数据集,特别是文档级数据集上优于先前最好的方法,在另外两个数据集上得到与此前最好方法相当的结果。
1