使用词图方法与词袋方法进行文本分类
介绍
该项目的目标是使用向量空间模型对一定数量的文本进行分类,向量空间模型是文档的空间表示形式。 每个文档都可以描述为具有一定数量特征的矢量,每个特征对应于训练词汇集中的特定单词。 所使用的数据集是经过预处理的路透数据集,其中包含5,495个培训文档和2,189个测试文档,并带有8个不同的标签。 预处理已用于将标记化,停用词删除和词干应用于初始文本。 笔记本中描述的方法背后的想法是构造“智能”文档术语矩阵,即大小为n×m的矩阵,其中n是文档数,m是要素数,选择“正确的”权重进行填充在这些矩阵中。 “好”的权重可以区分不同的文本标签,并且对于将要使用的任何学习算法都将有很大的帮助。
词袋与词图
在通常的单词表示法包中,不考虑文本中不同单词之间的顺序; 它是使用TfidfVectorizer在此处构建的。 与单词袋表示法不同,单词图表示法根据单词在文本中的位
2021-10-31 20:04:50
948KB
1