表 5.2 选取的部分搜狗语料库文章类别及数目表
类别 奥运 房产 娱乐 健康 教育 体育 旅游 汽车 商业 时尚
总计
文章
数目
19940 52405 24233 4049 7539 62751 6480 4889 45616 12342 240244
数据处理及特征提取过程与上节类似,这里只介绍不同过程。
在数据预处理阶段,针对本数据集加入了新的无关词表,如图 5.39所示。
图 5.39 自建无关词表示意图
筛选每个类别中的特征词,所有类别内的保留词情况如图 5.40所示。
图 5.40 所有类别内的保留词情况示意图
利用朴素贝叶斯分类方法,2折交叉验证中每次的 classification_report、分类正确率
以及混淆矩阵如图 5.41-图 5.43所示。
1