基于cnn的中文文本分类算法(python).zip
2021-08-12 22:10:33 13.31MB cnn python
使用sklearn进行中文文本分类-附件资源
2021-08-08 21:44:55 23B
1
基于支持向量机、决策树、KNN、随机森林、朴素贝叶斯这几种算法的中文文本分类方法实现,包含语料(训练集、测试集)
2021-07-14 18:07:47 363.63MB 中文文本分类 机器学习 自然语言处理 SVM
1
一个文本文件,包含中文停用词集合,对文本处理过程中,方便剔除停用词
2021-07-09 09:11:21 4KB 文本,停用词
1
基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景) 利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。 运行方法 训练 run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own) 在tensorboard上查看summaries run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view 测试、分类 run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints} 如果需要分类自己提供的文件,请更改相关输入参数 如果需要测试准确率,需要指定对应的标签文件(input_label_file): python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE 说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。 在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率 推荐运行环境 python 2.7.13 :: Anaconda 4.3.1 (64-bit) tensorflow 1.0.0 gensim 1.0.1 Ubuntu16.04 64bit
2021-07-08 15:02:43 13.32MB 中文文本
1
中文样本语料训练集,给做语音信号处理的提供数据资源。该资料所有权属于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组,如有使用请注明出处。
2021-07-06 16:58:01 50.38MB 文本
1
这个链接是训练集,测试集自己去搜有免费的,明明应该是免费的东西,有几个智障非要收钱,然后我才发现,现在csdn不能免费了?最低是2资源竟然? 分享一个免费的链接链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa 要是想打赏下载那个2c币的也行,谢谢老铁 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2021-06-30 10:05:23 56MB 中文文本分类 文本分类语料
1
svm_chinese_textclassification 基于向量空间模型的文本分类系统(Mainly for Chinese Corpus) 在pyqt5中使用Python和UI。 第一:使用解霸预处理分词。 第二:使用TF-IDF算法提取特征向量。 第三:使用libsvm工具进行数据缩放。 最后:使用支持向量机模型训练和预测分类。
2021-06-29 20:48:36 447KB Python
1
复旦中文文本数据集,包含训练集与测试集,数据集为TXT格式,可以进行文本分类实验,机器学习,深度学习,需要的可以下载。
2021-06-26 20:27:01 142.08MB 复旦数据集 文本分类 中文数据集
1
这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-06-25 09:04:28 15KB 分词算法 KNN文本分类算法 python