只为小站
首页
域名查询
文件下载
登录
TextClassification:基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为基线-源码
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12
98KB
data-mining
text-classification
svm
scikit-learn
1
RNN训练数据_
文本分类数据集
本节资料是练习RNN文本分类的数据,数据有是10类别,模型采用两层的LSTM网络。数据包含了测试集,训练集和验证集,并且代码讲解很详细,是联系RNN网络LSTM实现的好数据。
2021-05-06 19:00:51
72.42MB
RNN
文本分类
1
TREC06.zip
数据集来自国际文本信息检索会议(Text Retrieval Conference,TREC)中TREC2006的中文邮件和英文邮件数据集,供垃圾邮件分类学习使用
2021-04-24 19:36:02
176.55MB
垃圾邮件
文本分类
数据集
1
imdb、SST-1、SST-2、yelp-2013、yelp-2014
文本分类数据集
imdb、SST-1、SST-2、yelp-2013、yelp-2014
文本分类数据集
https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md
2021-04-24 16:21:47
292.19MB
NLP
1
超实惠-复旦大学
文本分类数据集
(训练集+测试集)
网上很多复旦大学的
文本分类数据集
,但是训练和测试大多是分开的。 我收集下载重新打包,以方便大家使用。 仅需5个积分,是最便宜的了。
2021-04-17 12:37:02
103.86MB
文本分类
数据集
复旦大学
1
cnn
文本分类数据集
+ck 数据集
1. CK数据集-ck,ck+表情识别 2. cnn文本分类-cnews 注释:百度云链接
2021-04-01 22:08:42
75B
CK
cnn
文本分类
数据集
1
文本分类数据集
(共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等)
文本分类数据集
(共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等) 数据量很多,适合进行深度学习实验
2021-03-31 15:49:45
50.23MB
文本分类
深度学习
数据集
机器学习
1
新闻
文本分类数据集
新闻文本的特征、标签
2021-03-31 09:16:43
236.11MB
数据
1
【自然语言处理】BiLSTM+Attention_TensorFlow—数据集.zip
【自然语言处理】文本分类模型_BiLSTM+Attention_TensorFlow实现,是该博客https://blog.csdn.net/bqw18744018044/article/details/89334729的数据集,可能有点错误,请谨慎使用
2021-03-18 21:41:39
25.57MB
文本分类数据集
1
THUCNews新闻
文本分类数据集
包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
2021-03-07 19:02:17
66.13MB
文本分类
新闻语料
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
中小型企业网络建设.pkt
stm32f103+OLED12864+FFT音乐频谱(多种显示效果 提供原理图)
mingw-w64-install.exe
股票价格预测-LSTM-TCN-GBDT:使用四种算法(LSTM,TCN,GRU,GBDT)进行股票价格的预测和预测结果的检验。有四种算法(LSTM,TCN,GRU,GBDT)用于预测股价并检验预测结果-源码
机械臂避障路径规划仿真 蚁群算法 三维路径规划
2020年数学建模B题穿越沙漠全部代码全国赛二等奖.zip
MVDR,Capon波束形成DO估计.zip
Microsoft Visual C++ 2015-2019 运行库合集,包含32位64位
粒子群算法优化3-5-3多项式工业机器人时间最优轨迹规划算法matlab代码
android studio课程设计作业PPT+设计文档+可运行源代码+设计思路
基于傅里叶算子的手势识别的完整源代码(Python实现,包含样本库)
校园网规划与设计和pkt文件
IEEE ENDNOTE 模板【更新】
PLECS中文手册.pdf
刚萨雷斯《数字图像处理》第四版答案.pdf
最新下载
CRRedist2005_X64
SPI驱动之南瑞NRSEC3000加密芯片驱动开发总结
Unity布料模拟插件Magica Cloth 2,MagicaCloth2 v2.3.1
MG-SOFT破解版有直接安装即可使用
压缩传感的非线性共轭梯度方法实现
mongocxx-v3.4-mingw32-dll.zip(编译好的)
RTL8188EUS RTL8188ETV定频软件
STM32F103 + ENC28J60
SIMATIC-S7FPROJX-V5-5-SP13-Upd1.exe
世界技能大赛网络系统管理项目(带评分表)
其他资源
lis2dtw12_STdC.zip
Qt小游戏--猜数字
5S机架效果插件及教程
散度、旋度、梯度释义(图解版)
zlib128-dll.rar
基于MATLAB的指纹识别系统并且带有gui界面
基于JSP的火车票铁路票务预订系统新版 -毕业设计
黑苹果Dell机DSDT修改
Review Manager5.3
外挂制作-封包挂完整教程
网上书店销售系统
创建UML概要文件和模型模板
GC-2010性能和特点.ppt
智能家居安防系统.docx
人均国民总收入(年).xls
OLED 091 12832 I2C STM32 驱动
vb.net串口通信接收界面源代码
弱口令集.txt
基于ThinkPHP免费开源CRM系统
网上采购系统网上采购系统
微机接口设计实验
C3-470B模块资料
RDLC report view 微软的RDLC报表的入门和编程示例