IMDB Large Movie Review Dataset 适用于情感二元分类的数据集,旨在作为情绪分类的基准,该数据集中有 50,000 条两极分化明显的电影评论拥有训练和测试,还有 50,000 条未经标记的数据可供使用。 该数据集由斯坦福大学于 2011 年发布,相关论文有《Learning Word Vectors for Sentiment Analysis》。
2022-07-13 16:05:36 137.77MB 数据集
INRIA Dataset 是一个行人检测数据集,其图片库被分为只有车、只有人、有车有人和无车无人四个类别,其中正样本为 PNG 格式,负样本为 JPG 格式,该数据集包含具有相应注释文件的原始图像和标准化格式图像两类。 INRIA Dataset 由 INRIA 于 2005 年发布
2022-07-13 16:05:33 980.8MB 数据集
Last.fm 是一个歌曲数据集,它包含最大的歌曲级别标签和预先计算的歌曲级别相似性研究。 所有的数据都与 MSD 歌曲相关,并可链接到其他 MSD 资源: 音频特性、艺术家数据、歌词等。 该数据包含 584,897 首曲目,522,366 个独特的标签,8,598,630 个「轨道 – 标签对」,56,506,688 个「轨道 – 类似轨道对」。 该数据集由 MSD 于 2011 年发布。
2022-07-13 16:05:30 1.19GB 数据集
MovieLens 是一套电影推荐数据集,信息来源于网站 movielens.umn.edu,该数据集包含 138493 位用户对 27278 部电影的评分数据,共计 20000263 条,数据采集自 1995.01 – 2015.03 这段时间。 MovieLens 数据集由明尼苏达大学-计算机科学与工程系的 GroupLens 组于 1998 年发布。
2022-07-13 16:05:29 417.55MB 数据集
Question Answer Dataset 是结合维基百科文章语料库的链接,并手动生成仿真问题和答案以供学术研究的问答数据集。该数据集分为文章、问题和答案三部分,其中手动生成的仿真问题与答案对维基百科文章的评分难度很高。 Question Answer Dataset 由卡内基·梅隆大学于 2013 年发布,主要发布人分别为 Noah Smith、Michael Heilman、Rebecca Hwa、Shay Cohen 和 Kevin Gimpel,其最早版本的数据大多由卡内基·梅隆大学和匹兹堡大学学生在 2008 年至 2010 年收集所得
2022-07-13 16:05:23 2.2MB 数据集
RSOD Dataset 是用于遥感图像中物体检测的数据集,其包含飞机、操场、立交桥和油桶四类目标,数量分别为:446 张图 —— 4993 架飞机,189 张图 —— 191 个操场,176 张图 —— 180 座立交桥,165 张图 —— 1586 个油桶。 该数据集由武汉大学于 2015 年发布,相关论文有《Elliptic Fourier transformation-based histograms of oriented gradients for rotationally invariant object detection in remote-sensing images》和《Accurate Object Localization in Remote Sensing Images Based on Convolutional Neural Networks》。
2022-07-13 16:05:21 309.86MB 数据集
Sun-Hays 80 Dataset 是被用于超分辨率图像研究的数据集,它利用全局场景描述在图像数据库进行相关场景的比对和查找,这些场景提供了理想的示例纹理以约束图像采样的问题,相较于超分辨率任务的内部图像统计,明确场景匹配的统计更具预测性。 基于补丁的纹理转移技术并产生幻觉纹理细节,后将发布者的超分辨率图像与其他方法进行比较得出结论。 这套数据集由布朗大学于 2012 年发布机构。 相关论文:「Super-resolution from Internet-scale Scene Matching」
2022-07-13 16:05:11 311.02MB 数据集
垃圾数据集_DATASET.7z
2022-07-13 16:04:55 209.23MB 数据集
Bald Classification Dataset(光头数据集)由 Ashish Jangra 于 2020 年 5 月发布于 Kaggle,包含 20 万张图像,可用于光头分类或检测。 该数据集共包括测试集、训练集、验证集三个文件夹,每个文件夹包括 Bald 和 NotBald 两部分。 Ashish Jangra 是一名 CSE(Computational Science and Engineering) 专业的本科学生,目前就读于 Lovely Professional University(印度拉夫里科技大学)。 包含数量:20 万张图像 数据格式:JPG
2022-07-13 11:05:34 1.32GB 数据集
Unsplash 在 2016 年开放了图片 API,截止目前已经达到了每月百万次调用,以及各种不同的使用场景。Unsplash 数据集于 2020 年八月宣布开放两个照片检索数据集,为更多的学者和科研机构提供研究资料。 Unsplash 数据集包含两个版本: 精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。 完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。 本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件(备注:TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载)分别为: Collections : 82 MB 包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的 ID(photo_id)、收藏夹的 ID(collection_id)、收藏夹的标题 (collection_title) 和时间戳 (photo_collecte
2022-07-13 11:05:24 194.59MB 数据集