搜索【中文文本分类数据集】的结果

互联网评论数据集（已划分）

适用于中文中长文本分类原始数据集和已经划分的数据集已给出划分的数据集经过数据预处理，删除了其中的重复文本，以及文本长度小于50的句子，最终构造的平衡语料训练集 5800 测试集 1000条验证集1000 （正负评论各站一半）

2023-01-15 11:06:10 3.33MB 自然语言处理 文本分类 中文文本分类数据集

1

toutiao-text-classfication-dataset.zip

中文文本分类数据集合

2021-12-16 22:17:00 76.88MB 中文文本分类数据集

复旦大学中文文本分类数据集.rar

复旦中文文本数据集，包含训练集与测试集，数据集为TXT格式，可以进行文本分类实验，机器学习，深度学习，需要的可以下载。

2021-06-26 20:27:01 142.08MB 复旦数据集 文本分类 中文数据集

1

网易新闻数据，用于中文文本分类，已经打好标签且预处理好了

有24000条新闻，共六个类别，直接用python3的pickle.load()该文件即可，是一个24000个元素的list，list的每个元素是一个tuple，tuple的第一个元素是与处理好的文本，第二个元素是对应的标签。

2021-06-18 17:50:09 66.9MB 文本分类 自然语言处理 中文文本分类 数据集

1

cnews中文文本分类数据集

cnews中文文本分类数据集；由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成，训练过程见我的博客；

2021-06-02 20:25:12 42.97MB cnews 深度学习 数据集

1

复旦大学中文文本分类数据集-训练+测试

由复旦大学李荣陆提供。answer.rar为测试语料，共9833篇文档；train.rar为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2019-12-25 11:15:53 103.28MB 数据集 中文语料库

1

复旦大学中文文本分类数据集

本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档，test.zip共9832篇文档，都分为20个类别。下载后可以自己重新切分数据，也可以直接用。免费下载地址：链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2019-12-21 20:24:05 106.17MB 中文文本分类 数据集

1

中文文本分类数据集.zip

新闻栏目中文文本分类，新闻栏目一共有：体育 5000 时政 5000 房产 5000 家居 5000 财经 5000 时尚 5000 科技 5000 教育 5000 娱乐 5000 游戏 5000 每个新闻栏目拥有5000条新闻，通过对新闻内容作为样本训练模型，使得该模型能够预测出该条新闻所属的栏目。

2019-12-21 20:19:49 66.03MB 文本分类数据集

1

新闻类中文文本分类数据集

资源为新闻类的中文文本分类数据集，能够满足机器学习，文字分析方面的需求

2019-12-21 18:56:23 61.06MB 11

1

个人信息

热门下载

最新下载

其他资源