自然语言处理之文本主题判别

自然语言处理 svm 文本分类高斯贝叶斯

问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，需要从网络中爬取相当数量的相关文本，其中发现爬取到了一些不相关的内容，如何把这些不相关的内容剔除掉成为笔者需要思考的问题。初步思考：遇到此问题笔者第一时间考虑是将文本分词后向量化，使用聚类看一下分布情况，然而发现在不同训练集中，训练样本变化时，向量随之变化，在测试集中表现一般，在实测中几乎无用。于是想到向量化的方法问题，使用sklearn CountVectorizer方法进行向量化，仅仅是将所有词频无序的向量化，看到另外博文时，发现应该先将目标主题的文本进行词频统计，将统计结果当做向量化模板，实测发现效果不错，现将此方法分享给大家

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

自然语言处理之文本主题判别

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载