这是卡内基梅隆大学的公开人脸测试集测试集共分四个文件夹,分别为测试集A、B、C和旋转测试集。由于大小限制,因此将四个文件夹分开上传 The image dataset is used by the CMU Face Detection Project and is provided for evaluating algorithms for detecting frontal views of human faces. This particular test set was originally assembled as part of work in Neural Network Based Face Detection. It combines images collected at CMU and MIT. Please give appropriate acknowledgements when you use these test sets. In the lists of files below, you will find references to Test Sets A, B, C and the Rotated Test Set. Test Set B was provided by Kah-Kay Sung and Tomaso Poggio at the AI/CBCL Lab at MIT, and Test Sets A,C and the rotatated test set were collected here at CMU (by Henry A. Rowley, Shumeet Baluja, and Takeo Kanade). In [Schneiderman and Kanade, 2000] and [Schneiderman and Kanade, 1998] we refer to the combination of test sets A, B, and C as the "combined test sets of Sung and Poggio and Rowley, Baluja, and Kanade." In [Rowley, Baluja, and Kanade, 1998] we refer to the combination of sets A, B, C as "test set one" and in [Rowley, Baluja, and Kanade, 1997] we refer to it as the "upright set" as distinguished from the "rotated set."
2021-05-18 19:56:47 13.69MB cmu mit 人脸检测 人脸
1
深圳电信培训中心的徐海蛟博士教学用的真正的Corel-5K图像数据集。5000张图片,标注词,训练数据,测试数据。特征提取说明。吐血奉献! 这是真正的Corel-5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel-5K,童鞋们可用于科学图像实验:分类、检索等。Corel-5k数据集是图像实验的事实标准数据集。 Corel图像库是科雷尔(Corel)公司收集整理的较为丰富的图像库涵盖多个主题。Corel图像库由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。 Corel-5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。 Corel-5k图像库通常被分成三个部分: 4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。 该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。 童鞋们自己去提取相关低层视觉特征:Rgb Lab Hsv Sift Gist HOG等等。 童鞋们完成 svm knn adaboost 逻辑回归 随机森林 mimlsvm mimlknn mimlboost 自定义算法 等等多类与多标签实验吧。Go, ...
2021-05-17 14:32:35 63.76MB Corel Corel-5K 图像训练 图像测试
1
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
(1)训练集:7,494个特征向量及对应标签,来源于40位手写者 (2)测试集:3,498个特征向量及对应标签,来源于14位手写者 training1.txt,test1.txt中特征向量为16维; training2.txt,test2.txt中特征向量为1024维; 标签值为0~9的数字 文档每行由特征向量和标签值组成,用逗号分隔
2021-05-13 22:13:29 378KB 机器学习 数据集 训练集 测试集
1
岗位信息+求职信息+行为信息。(上传的test中缺少一部分数据,在另一个同名资源中补充了)
2021-05-11 09:47:35 118.51MB 人岗匹配 岗位推荐 人才推荐
1
这里面的包括的数据集包括训练集和测试集,训练集是train_corpus,测试集是test_corpus.
2021-05-06 20:55:06 2.54MB 新闻语料
1
今天小编就为大家分享一篇python 划分数据集为训练集和测试集的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2021-05-06 13:28:42 31KB python 数据集 训练集 测试集
1
OTB50、OTB100、OTB2013数据集。循环矩阵,用来制造样本的数量(虚拟的样本)。更多的样本训练额分类器的效果就更好。 核技巧,将低维空间的计算映射到高维的核空间,在低维空间不可分的情况到高维空间之后变的线性可分了。
2021-05-04 11:18:37 52B OTB 目标跟踪 KCF 测试集
1
全景图拼接测试集
2021-04-28 15:29:22 31.34MB 全景图拼接
1
人工智能图片验证码识别需要数据集进行训练,这里提供图片大小为120*40,训练集和测试集各5000张(训练集带label.csv)未打标,希望对您有帮助
1