1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。
2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词
1
天池比赛 新闻文本分类数据集 test_a.csv train_set.csv
2021-06-12 23:36:39 295.32MB 数据集
1
新闻文本分类比赛的训练数据和测试数据
2021-06-12 22:57:07 295.33MB 数据集
1
基于语义的新闻文本分类,赵一超,郭军,文本分类,是自然语言处理中的一个重要领域,经过长时间发展已经形成例如朴素贝叶斯、最大熵、SVM(支持向量机)等技术。语义作为
2021-06-10 22:23:40 727KB 文本分类
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练
2021-06-04 21:06:29 1.45GB NLP
1
一行代码使用BERT生成句向量,BERT做文本分类、文本相似度计算
2021-06-03 21:39:07 2.97MB BERT
1
cnews中文文本分类数据集;由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史 数据筛选过滤生成,训练过程见我的博客;
2021-06-02 20:25:12 42.97MB cnews 深度学习 数据集
1
answer文件夹为测试语料,共9833篇文档;train文件夹为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试集压缩包各50多兆)
2021-06-01 19:28:39 105.93MB 机器学习 文本分类 分类语料 中文语料库
1
半监督文本分类的对抗训练方法 规范 此代码重现用 。 设置环境 请安装和 。 您可以使用此轻松设置环境。 下载预训练模型 请下载预先训练的模型。 $ wget http://sato-motoki.com/research/vat/imdb_pretrained_lm.model 结果 模型 错误率 基线 7.39 基准(我们的代码) 6.62 对抗性 6.21 对抗训练(我们的代码) 6.35 虚拟对抗训练 6.40 虚拟对抗训练 5.91 虚拟对抗训练(我们的代码) 5.82 跑 预训练 $ python -u pretrain.py -g 0 --layer
1