文字分类 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的合并分类等等。此处分为两个部分: 第1部分:基于scikit学习机器学习的Python库,对比几个传统机器学习方法的文本分类 第2部分:基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN 本文语料:,密码:P9M4。更多新闻标注语料,。 预训练词向量模型来自,下载地址: 。 第1部分:基于scikit-learn机器学习的文本分类方法 基于scikit-
2024-06-24 14:49:13 208KB python nlp machine-learning deep-learning
1
基于 pytorch-transformers 实现的 BERT 中文文本分类代码 数据: 从 THUCNews 中随机抽取20万条新闻标题,一共有10个类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐,每类2万条标题数据。数据集按如下划分: 训练集:18万条新闻标题,每个类别的标题数为18000 验证集:1万条新闻标题,每个类别的标题数为1000 测试集:1万条新闻标题,每个类别的标题数为1000
2024-05-09 10:42:25 732.57MB pytorch bert 文档资料 人工智能
1
基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)
2024-04-14 09:54:07 13.33MB
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
适用于中文中长文本分类 原始数据集和已经划分的数据集已给出 划分的数据集经过数据预处理,删除了其中的重复文本,以及文本长度小于50的句子,最终构造的平衡语料 训练集 5800 测试集 1000条 验证集1000 (正负评论各站一半)
1
复旦大学中文文本分类训练集和测试集 文件太大压缩为了zip格式。 all文件夹为复旦大学中文文本分类语料集, test_corpus为该语料集中挑选部分划分出来的, train_corpus为该语料集中挑选test_corpus后剩余部分划分出来的。 下载以后可以按照自己的要求指定比例划分训练集和测试集,也可以按照本文档的划分方法。
1
NLP实战之中文文本分类
2022-08-08 09:06:40 8.75MB NLP
1
中文文本分类语料-测试集下载 是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
2022-07-21 10:16:29 52.72MB 大数据 文本分析 文本训练 机器学习
1
Bert-Chinese-Text-Classification-Pytorch LICENSE 中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 介绍 模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。 机器:一块2080Ti , 训练时间:30分钟。 环境 python 3.7 pytorch 1.1 tqdm sklearn tensorboardX pytorch_pretrained_bert(预训练代码也上传了, 不需要这个库了)
2022-07-09 11:07:18 6.11MB 深度学习 Bert Ernie 中文文本分类
用朴素贝叶斯分类算法做中文文本分类-附件资源
2022-06-10 09:03:29 23B
1