上传者: 26782843
|
上传时间: 2022-06-14 10:41:19
|
文件大小: 4.05MB
|
文件类型: PDF
表 5.2 选取的部分搜狗语料库文章类别及数目表
类别 奥运 房产 娱乐 健康 教育 体育 旅游 汽车 商业 时尚
总计
文章
数目
19940 52405 24233 4049 7539 62751 6480 4889 45616 12342 240244
数据处理及特征提取过程与上节类似,这里只介绍不同过程。
在数据预处理阶段,针对本数据集加入了新的无关词表,如图 5.39所示。
图 5.39 自建无关词表示意图
筛选每个类别中的特征词,所有类别内的保留词情况如图 5.40所示。
图 5.40 所有类别内的保留词情况示意图
利用朴素贝叶斯分类方法,2折交叉验证中每次的 classification_report、分类正确率
以及混淆矩阵如图 5.41-图 5.43所示。