Graph-Of-Words:用于文字分类的单词图-源码

上传者: 42152298 | 上传时间: 2021-10-31 20:04:50 | 文件大小: 948KB | 文件类型: -
使用词图方法与词袋方法进行文本分类 介绍 该项目的目标是使用向量空间模型对一定数量的文本进行分类,向量空间模型是文档的空间表示形式。 每个文档都可以描述为具有一定数量特征的矢量,每个特征对应于训练词汇集中的特定单词。 所使用的数据集是经过预处理的路透数据集,其中包含5,495个培训文档和2,189个测试文档,并带有8个不同的标签。 预处理已用于将标记化,停用词删除和词干应用于初始文本。 笔记本中描述的方法背后的想法是构造“智能”文档术语矩阵,即大小为n×m的矩阵,其中n是文档数,m是要素数,选择“正确的”权重进行填充在这些矩阵中。 “好”的权重可以区分不同的文本标签,并且对于将要使用的任何学习算法都将有很大的帮助。 词袋与词图 在通常的单词表示法包中,不考虑文本中不同单词之间的顺序; 它是使用TfidfVectorizer在此处构建的。 与单词袋表示法不同,单词图表示法根据单词在文本中的位

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明