Doc2Vec文本分类
文本分类模型,该模型使用gensim Doc2Vec生成段落嵌入,并使用scikit-learn Logistic回归进行分类。
数据集
25,000个IMDB电影评论,特别选择用于情感分析。 评论的情绪是二进制的(1表示肯定,0表示否定)。
与以下出版物相关联地收集了此源数据集:
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). "Learning Word Vectors for Sentiment An
1