搜索【文本分类数据集】的结果

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码

新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除数字（中文数字＆阿拉伯数字）。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪，加快数据预处理的过程。把数据集1：1划分为训练集和测试集，各50w篇文档。通过scikit-learn提供的CountVectorizer类完成矢量化，得到训练集和测试集两个文本的特征矩阵，矩阵类型为稀疏矩阵。移除文档中文档频率小于0.1％的特征，这些特征我们认

2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn

1

RNN训练数据_文本分类数据集

本节资料是练习RNN文本分类的数据，数据有是10类别，模型采用两层的LSTM网络。数据包含了测试集，训练集和验证集，并且代码讲解很详细，是联系RNN网络LSTM实现的好数据。

2021-05-06 19:00:51 72.42MB RNN 文本分类

1

TREC06.zip

数据集来自国际文本信息检索会议（Text Retrieval Conference，TREC）中TREC2006的中文邮件和英文邮件数据集，供垃圾邮件分类学习使用

2021-04-24 19:36:02 176.55MB 垃圾邮件 文本分类 数据集

1

imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集

imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md

2021-04-24 16:21:47 292.19MB NLP

1

超实惠-复旦大学文本分类数据集（训练集+测试集）

网上很多复旦大学的文本分类数据集，但是训练和测试大多是分开的。我收集下载重新打包，以方便大家使用。仅需5个积分，是最便宜的了。

2021-04-17 12:37:02 103.86MB 文本分类 数据集 复旦大学

1

cnn文本分类数据集+ck 数据集

1. CK数据集-ck，ck+表情识别 2. cnn文本分类-cnews 注释：百度云链接

2021-04-01 22:08:42 75B CK cnn 文本分类 数据集

1

文本分类数据集（共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等）

文本分类数据集（共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等）数据量很多，适合进行深度学习实验

2021-03-31 15:49:45 50.23MB 文本分类 深度学习 数据集 机器学习

1

新闻文本分类数据集

新闻文本的特征、标签

2021-03-31 09:16:43 236.11MB 数据

1

【自然语言处理】BiLSTM+Attention_TensorFlow—数据集.zip

【自然语言处理】文本分类模型_BiLSTM+Attention_TensorFlow实现，是该博客https://blog.csdn.net/bqw18744018044/article/details/89334729的数据集，可能有点错误，请谨慎使用

2021-03-18 21:41:39 25.57MB 文本分类数据集

1

THUCNews新闻文本分类数据集

包含体育、游戏等10个类别，共60000多条数据格式：标签\t文本语料

2021-03-07 19:02:17 66.13MB 文本分类 新闻语料

1

个人信息

热门下载

最新下载

其他资源