基于机器学习的中文文本主题分类及情感分类研究

上传者: 47367099 | 上传时间: 2022-04-27 16:05:45 | 文件大小: 7.62MB | 文件类型: PDF
随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式 增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数 据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数 据的关键技术应运而生并取得了快速的发展。 基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器 学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广 泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进 行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。 通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了 提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度 因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加 权方法TFIDF具有更好的分类性能。 情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域 的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明