MSRA – TD500 图像数据集被用于评估文本检测 算法 基准,它包含多种类和多国语言的 500 张自然图像,分别是 300 张训练图和 200 张测试图。 该数据集使用袖珍相机从室内和室外场景拍摄,其中室内图像以标志,门板和警示牌为主,室外图像以复杂背景下的导板和广告牌为主,图像分辨率从 1296×864 到 1920×1280 不等。 图像包含中英文,每张图片都以行为单位完全标注,其中难以识别的有困难标注。 MSRA-TD500 数据集由华中科技大学于 2012 年在 CVPR 发布, 主要发布人有 C. Yao, X. Bai, W. Liu, Y. Ma 和 Z. Tu。
2022-07-13 16:05:29 96.35MB 数据集
MSMARCO 是机器阅读理解数据集,其包含的 1,010,916 个匿名问题均来自 Bing 的搜索查询日志,日志中均包含 AI 生成的答案和 182,669 条人为重写的答案,该数据集还包含从 3,563,535 个文档中提取的 8,841,823 个段落。 MSMARCO 数据集由微软于 2016 年发布,并在 2018 年更新,此外,该数据集拥有对应的排名比赛。
2022-07-13 16:05:28 262.54MB 数据集
该数据集是一个针对日文漫画的 机器翻译 评估数据集,包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。 数据格式:带注释的 JSON 文件和原始图像
2022-07-13 16:05:27 34.26MB 数据集
Parkinson’s Disease Classification 数据集用于检测分类帕金森疾病,数据集收集于 188 位患有帕金森症状的患者,年龄区间为 33 岁到 87 岁。该数据集还包括 64 位年龄区间 41 岁至 82 岁的健康样本
2022-07-13 16:05:26 2.04MB 数据集
LMD-full 数据集全称为 The Lakh MIDI Dataset v0.1 完整版,该数据集有超过 17 万个独一的 MIDI 文件,其中 4 万 5 千个文件匹配到了百万歌曲数据集。该数据集的目标是促进大规模音乐信息检索,包括符号(仅使用 MIDI 文件)和基于音频内容(使用从 MIDI 文件中提取的信息作为匹配音频文件的注释)
2022-07-13 16:05:25 1.65GB 数据集
Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11,其中评分以 5 分制为基准,并且用户信息已经经过脱敏处理。 该数据集来自于 Netflix Prize 比赛,其旨在提高根据个人喜好欣赏电影预测的准确性,该比赛自 2006 年举办并持续至 2011 年。
2022-07-13 16:05:24 673.14MB 数据集
PDB 蛋白质 结构 数据集,是一个专门收录蛋白质及核酸的三维结构资料的数据库,拥有十分悠久的历史,由美国布鲁克黑文国家实验室的 Walter Hamilton 于 1971 年起开始构建收集。 PDB 数据库中信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构所用实验方法,以及温度因子、结构测定者等其它数据及信息。可以在 PDB 数据库查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构。
2022-07-13 16:05:24 27.45MB 数据集
Question Answer Dataset 是结合维基百科文章语料库的链接,并手动生成仿真问题和答案以供学术研究的问答数据集。该数据集分为文章、问题和答案三部分,其中手动生成的仿真问题与答案对维基百科文章的评分难度很高。 Question Answer Dataset 由卡内基·梅隆大学于 2013 年发布,主要发布人分别为 Noah Smith、Michael Heilman、Rebecca Hwa、Shay Cohen 和 Kevin Gimpel,其最早版本的数据大多由卡内基·梅隆大学和匹兹堡大学学生在 2008 年至 2010 年收集所得
2022-07-13 16:05:23 2.2MB 数据集
Quora Duplicate Questions Dataset 是用于判别文本中问题对是否重复的数据集,其被用于文本分类研究,旨在为任何人提供训练和测试语义等效模型的机会。 该数据集由超过 400,000 行潜在问题重复对组成,每行包含问题的 ID、问题的完整文本以及指示该行是否包含重复对的二进制值。 该数据集由 Quora 团队于 2017 年发布,主要发布人有 Shankar Iyer、Nikhil Dandekar 和 Kornél Csernai。
2022-07-13 16:05:22 12.35MB 数据集
RSOD Dataset 是用于遥感图像中物体检测的数据集,其包含飞机、操场、立交桥和油桶四类目标,数量分别为:446 张图 —— 4993 架飞机,189 张图 —— 191 个操场,176 张图 —— 180 座立交桥,165 张图 —— 1586 个油桶。 该数据集由武汉大学于 2015 年发布,相关论文有《Elliptic Fourier transformation-based histograms of oriented gradients for rotationally invariant object detection in remote-sensing images》和《Accurate Object Localization in Remote Sensing Images Based on Convolutional Neural Networks》。
2022-07-13 16:05:21 309.86MB 数据集