互联网已经成为现代生活中不可或缺的一部分,网络上的信息量也在以数倍的速度快速增长。无论是企事业单位,学校,或者科研院校等等机构中,都积累了非常多的资料,这些资料绝大多数都以文档的形式存在。所以,如何将数以万计且排序混乱的文本信息,按照一定的规则和形式进行统一的管理,以达到方便使用和管理的目的成为了一个不得不去解决的问题。本文就是在SVM,即支持向量机方法的基础上,设计了一个中文文本分类系统。介绍了系统的需求分析,并对系统进行了详细设计,从概念的初始化设计到之后的详细设计,实现了基于SVM的中文文本分类系统的最终目的,达到了设计要求。
1
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)
2021-12-24 15:11:46 52.33MB 文本分类 语料
1
中文文本分类数据集合
2021-12-16 22:17:00 76.88MB 中文文本分类数据集
本语料库由复旦大学李荣陆提供。训练和测试两个语料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2021-11-17 21:49:02 109.68MB 文本
1
用朴素贝叶斯分类算法做中文文本分类-附件资源
2021-10-18 12:38:16 106B
1
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
1
知识蒸馏在文本方向上的应用 模型相关等内容在有具体介绍。 目录 更新日志 2020.08.28 整理代码结构,抛弃借鉴的Bert模型,增加xlnet模型,预训练xlnet模型效果较差,可以在模型基础上再进行预训练,因此添加了模型预训练代码。 2020.07.15 修复bug,添加textGCN模型(单独训练,模型效果较差)。 2020.07.06 移除模型介绍&部分模型实现,增加使用说明及运行环境。 2020.05.28 增加了直接使用学生模型训练代码,并使用公开测试集完成测试。 运行环境 python 3.7 pytorch 1.1 (BERT模型参考Bert-Chinese-Text-Classification-Pytorch,有较多改动) transformers 3.0.2 torch 1.5.0 使用说明 下载Wikipedia_zh 中文维基百科 预训练词向量放入Knowl
2021-10-03 16:16:24 1.11MB pytorch knowledge-distillation bert Python
1
PyTorch的BERT中文文本分类 此存储库包含用于中文文本分类的预训练BERT模型的PyTorch实现。 代码结构 在项目的根目录,您将看到: ├── pybert | └── callback | | └── lrscheduler.py   | | └── trainingmonitor.py  | | └── ... | └── config | | └── base.py #a configuration file for storing model parameters | └── dataset    | └── io     | | └── be
2021-08-27 20:50:35 46KB nlp text-classification pytorch chinese
1
text_classify 以复旦中文文本分类语料库为样本,用python实现的文本分类算法 由于训练集和测试集太大,所以给出的是训练集和测试集的下载地址,以及停用词表hlt_stop_words.txt Python版本为2.7 运行顺序: step1:corpus_segment.py step2: corpus2Bunch.py (需要提前创建目录train_word_bag和test_word_bag) step3: TFIDF_space.py step4:NBayes_Predict.py
2021-08-20 18:08:05 9KB Python
1
基于cnn的中文文本分类算法(python).zip
2021-08-12 22:10:33 13.31MB cnn python