利用十大经典机器学习算法之一的SVM(支持向量机)算法,实现文本分类,用于自然语言处理。
2019-12-21 21:51:32 7KB SVM文本分类
1
问题发现: 本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。 初步思考: 遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。于是想到向量化的方法问题,使用sklearn CountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到另外博文时,发现应该先将目标主题的文本进行词频统计,将统计结果当做向量化模板,实测发现效果不错,现将此方法分享给大家
2019-12-21 21:41:53 2.71MB 自然语言处理 svm 文本分类 高斯贝叶斯
1
【SVM】文本多分类源码,加了很多注释,按照README里面就能运行,,数据集也在里面,,自己把数据集直接放到E盘根目录下(程序里面写死了),或者自己放个里面,然后TrainProcess.java里面改也可以。
2019-12-21 18:55:45 59.51MB svm 文本分类 代码实现
1
基于内容的文本分类系统 (这是一个完整的分类系统,用java写的,分词是中科院64位的分词) 详情:http://blog.csdn.net/yinchuandong2/article/details/17717449 使用libsvm 进行分类 使用中科院的分词器ICTLAS对训练集进行分词
2014-01-01 00:00:00 40.58MB libsvm svm 文本分类 分词
1