人脸识别使用的训练集,里面包括了很多的正样本集合和负样本集合。
2021-05-16 03:05:38 56.68MB 人脸识别 训练集
1
脚本需求:模型训练时,有很多公开的有雾数据集,但是不符合自己特殊的场景,此时我们就需要制作有雾的数据集;
2021-05-15 18:01:36 4KB 有雾 训练集 深度学习
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。本算法用于实现生物信息的筛选,java实现
2021-05-13 23:43:52 22KB ID3算法 java实现 训练集
1
(1)训练集:7,494个特征向量及对应标签,来源于40位手写者 (2)测试集:3,498个特征向量及对应标签,来源于14位手写者 training1.txt,test1.txt中特征向量为16维; training2.txt,test2.txt中特征向量为1024维; 标签值为0~9的数字 文档每行由特征向量和标签值组成,用逗号分隔
2021-05-13 22:13:29 378KB 机器学习 数据集 训练集 测试集
1
岗位信息+求职信息+行为信息。(上传的test中缺少一部分数据,在另一个同名资源中补充了)
2021-05-11 09:47:35 118.51MB 人岗匹配 岗位推荐 人才推荐
1
用于利用卷积神经网络做验证码识别的20000余张验证码的训练集
2021-05-09 11:45:10 77.9MB 验证码训练集
1
该资源为cnn卷积神经网络识别面部表情的训练集,包括label和feature,具体值表示像素,可供Pytorch深度学习使用
2021-05-07 16:29:34 229.47MB CNN 训练集 机器学习 面部情感识别
1
这里面的包括的数据集包括训练集和测试集,训练集是train_corpus,测试集是test_corpus.
2021-05-06 20:55:06 2.54MB 新闻语料
1
今天小编就为大家分享一篇python 划分数据集为训练集和测试集的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2021-05-06 13:28:42 31KB python 数据集 训练集 测试集
1