icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-07-13 16:05:37 50.2MB 数据集
IMDB Large Movie Review Dataset 适用于情感二元分类的数据集,旨在作为情绪分类的基准,该数据集中有 50,000 条两极分化明显的电影评论拥有训练和测试,还有 50,000 条未经标记的数据可供使用。 该数据集由斯坦福大学于 2011 年发布,相关论文有《Learning Word Vectors for Sentiment Analysis》。
2022-07-13 16:05:36 137.77MB 数据集
该数据集反映了洛杉矶市可追溯到 2010 年的交通事故,有洛杉矶市官方提供。具体内容包含时间、地点、犯罪码及描述、受害者相关信息等 24 类信息。可被用作于犯罪类问题研究
2022-07-13 16:05:35 23.15MB 数据集
Labelme Dataset 是用于目标识别的图像数据集,涵盖 1000 多个完全注释和 2000 个部分注释的图像,其中部分注释图像可以被用于训练标记 算法 ,测试集拥有来自于世界不同地方拍摄的图像,这可以保证图片在续联和测试之间会有较大的差异。 该数据集由麻省理工学院 – 计算机科学和 人工智能 实验室于 2007 年发布,相关论文有《LabelMe: a database and web-based tool for image annotation》,且该项目有相关挑战赛。
2022-07-13 16:05:34 461.5MB 数据集
Maluuba News QA 是一种用于机器阅读理解的数据集,其包含开发能够回答人类问题和推理问题的相关 算法 ,该数据集包含 12 万问答对,均基于人类自然语言编写。 Maluuba News QA 数据集由微软于 2016 年发布,相关论文有《NewsQA: A Machine Comprehension Dataset》。
2022-07-13 16:05:34 7.29MB 数据集
INRIA Dataset 是一个行人检测数据集,其图片库被分为只有车、只有人、有车有人和无车无人四个类别,其中正样本为 PNG 格式,负样本为 JPG 格式,该数据集包含具有相应注释文件的原始图像和标准化格式图像两类。 INRIA Dataset 由 INRIA 于 2005 年发布
2022-07-13 16:05:33 980.8MB 数据集
MIT300 数据集包含 300 张自然图像,因官方未发布 39 位观测者对于每一张图片的眼球追踪数据,该数据集仅可被作为测试数据集使用,并不能训练模型。使用者可以开发研究眼球追踪类模型并以此数据集作为测试集,发送邮件至 saliency@mit.edu 得到官方反馈。详情请浏览 http://saliency.mit.edu/submission_mit300.html
2022-07-13 16:05:32 35.12MB 数据集
Wikipedia Movie Plots 数据集包含 34886 部世界各地的电影。每部电影包括发行年份、标题、电影的民族性、导演、主演、剧情介绍等。该数据集可被用于多类问题处理如预测电影种类类型和推荐相关电影等。
2022-07-13 16:05:31 29.54MB 数据集
Last.fm 是一个歌曲数据集,它包含最大的歌曲级别标签和预先计算的歌曲级别相似性研究。 所有的数据都与 MSD 歌曲相关,并可链接到其他 MSD 资源: 音频特性、艺术家数据、歌词等。 该数据包含 584,897 首曲目,522,366 个独特的标签,8,598,630 个「轨道 – 标签对」,56,506,688 个「轨道 – 类似轨道对」。 该数据集由 MSD 于 2011 年发布。
2022-07-13 16:05:30 1.19GB 数据集
MovieLens 是一套电影推荐数据集,信息来源于网站 movielens.umn.edu,该数据集包含 138493 位用户对 27278 部电影的评分数据,共计 20000263 条,数据采集自 1995.01 – 2015.03 这段时间。 MovieLens 数据集由明尼苏达大学-计算机科学与工程系的 GroupLens 组于 1998 年发布。
2022-07-13 16:05:29 417.55MB 数据集