新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
本节资料是练习RNN文本分类的数据,数据有是10类别,模型采用两层的LSTM网络。数据包含了测试集,训练集和验证集,并且代码讲解很详细,是联系RNN网络LSTM实现的好数据。
2021-05-06 19:00:51 72.42MB RNN 文本分类
1
数据集来自国际文本信息检索会议(Text Retrieval Conference,TREC)中TREC2006的中文邮件和英文邮件数据集,供垃圾邮件分类学习使用
2021-04-24 19:36:02 176.55MB 垃圾邮件 文本分类 数据集
1
imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md
2021-04-24 16:21:47 292.19MB NLP
1
网上很多复旦大学的文本分类数据集,但是训练和测试大多是分开的。 我收集下载重新打包,以方便大家使用。 仅需5个积分,是最便宜的了。
2021-04-17 12:37:02 103.86MB 文本分类 数据集 复旦大学
1
1. CK数据集-ck,ck+表情识别 2. cnn文本分类-cnews 注释:百度云链接
2021-04-01 22:08:42 75B CK cnn 文本分类 数据集
1
文本分类数据集(共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等) 数据量很多,适合进行深度学习实验
2021-03-31 15:49:45 50.23MB 文本分类 深度学习 数据集 机器学习
1
新闻文本的特征、标签
2021-03-31 09:16:43 236.11MB 数据
1
【自然语言处理】文本分类模型_BiLSTM+Attention_TensorFlow实现,是该博客https://blog.csdn.net/bqw18744018044/article/details/89334729的数据集,可能有点错误,请谨慎使用
2021-03-18 21:41:39 25.57MB 文本分类数据集
1
包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
2021-03-07 19:02:17 66.13MB 文本分类 新闻语料
1