总结了文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机概念及其实现代码
模式识别文本分类算法研究比较模式识别文本分类算法研究比较模式识别文本分类算法研究比较模式识别文本分类算法研究比较模式识别文本分类算法研究比较模式识别文本分类算法研究比较
2021-12-06 19:46:25 1.01MB 文本分类
1
本文用C++实现KNN分类算法,代码齐全,直接使用,很适合初学者学习之用
2021-11-30 19:34:56 42KB c++
1
20个新闻组文本分类 本笔记本包含使用数据集、使用和库的文本分类实现,以及使用库的一些模型解释。 本笔记本随附的博客文章:
1
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法。通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度。实验证明,改进的KNN算法具有很好的性能。
2021-10-20 17:42:00 532KB 自然科学 论文
1
近年来,复杂文档和文本的数量呈指数级增长,需要对机器学习方法有更深刻的理解,才能在许多应用中准确地对文本进行分类。
2021-08-27 10:22:52 7.58MB 文本分类算法
1
text_classify 以复旦中文文本分类语料库为样本,用python实现的文本分类算法 由于训练集和测试集太大,所以给出的是训练集和测试集的下载地址,以及停用词表hlt_stop_words.txt Python版本为2.7 运行顺序: step1:corpus_segment.py step2: corpus2Bunch.py (需要提前创建目录train_word_bag和test_word_bag) step3: TFIDF_space.py step4:NBayes_Predict.py
2021-08-20 18:08:05 9KB Python
1
基于cnn的中文文本分类算法(python).zip
2021-08-12 22:10:33 13.31MB cnn python
基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景) 利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。 运行方法 训练 run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own) 在tensorboard上查看summaries run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view 测试、分类 run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints} 如果需要分类自己提供的文件,请更改相关输入参数 如果需要测试准确率,需要指定对应的标签文件(input_label_file): python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE 说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。 在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率 推荐运行环境 python 2.7.13 :: Anaconda 4.3.1 (64-bit) tensorflow 1.0.0 gensim 1.0.1 Ubuntu16.04 64bit
2021-07-08 15:02:43 13.32MB 中文文本
1
这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-06-25 09:04:28 15KB 分词算法 KNN文本分类算法 python