随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式
增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数
据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数
据的关键技术应运而生并取得了快速的发展。
基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器
学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广
泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进
行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。
通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了
提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度
因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加
权方法TFIDF具有更好的分类性能。
情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域
的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的