Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。 该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建立了基于句子 结构 的完整表示。它可根据单词组成的短语判断情绪。 该数据集由斯坦福大学 自然语言处理 组于 2013 年发布,相关论文有《Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank》。
2022-07-13 16:05:11 11.36MB 数据集
Sun-Hays 80 Dataset 是被用于超分辨率图像研究的数据集,它利用全局场景描述在图像数据库进行相关场景的比对和查找,这些场景提供了理想的示例纹理以约束图像采样的问题,相较于超分辨率任务的内部图像统计,明确场景匹配的统计更具预测性。 基于补丁的纹理转移技术并产生幻觉纹理细节,后将发布者的超分辨率图像与其他方法进行比较得出结论。 这套数据集由布朗大学于 2012 年发布机构。 相关论文:「Super-resolution from Internet-scale Scene Matching」
2022-07-13 16:05:11 311.02MB 数据集
CBT 数据集由文字段落和相应问题构建,问答数据均来自古腾堡项目免费提供的书籍,该数据集用于直接测量语言模型、更广泛的语言环境用于问答和仿真查找。 CBT 数据集由 Facebook 于 2016 年发布,主要发布人有 Felix Hill、Antoine Bordes、Sumit Chopra 和 Jason Weston,相关论文有《The Goldilocks Principle: Reading Children’s Books with Explicit Memory Representations》。
2022-07-13 16:05:10 113.3MB 数据集
Urban100 包含了具挑战性的城市景色,具有不同频带的细节。 对真实图像利用双三次插值进行降尺度可以得到 LR/HR 图像对,以得到训练和测试数据集。
2022-07-13 16:05:09 183.59MB 数据集
TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发布。 主要发布人:John S. Garofolo 相关论文:《TIMIT Acoustic-Phonetic Continuous Speech Corpus LDC93S1》
2022-07-13 16:05:08 419.82MB 数据集
该数据集是由威斯康星大学麦迪逊分校提供,包括每个春季与秋季所开放的所有课程,教师,科目及相关成绩报告。此数据集中有超过 9000 个课程,共计 3 百万份成绩,数据均来源于威斯康星大学麦迪逊分校办公室。
2022-07-13 16:05:08 89.99MB 数据集
此数据集是由 Datafinit 数据库所提供,包含 10000 双女鞋及产品信息。具体内容有鞋子名称、品牌、价格等。该数据集可被用于定价策略和趋势等问题的研究。
2022-07-13 16:05:07 12.43MB 数据集
WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依赖自然语言建模的场景。 该数据集由 Salesforce Research 于 2016 年发布,主要发布人为 Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher,相关论文有《Pointer Sentinel Mixture Models》。
2022-07-13 16:05:06 373.28MB 数据集
THUCNews 数据集是根据新浪新闻 2005~2011 年间的历史数据筛选过滤生成,包含 74 万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐
2022-07-13 16:05:05 1.45GB 数据集
Yelp Reviews Full Dataset 发布于 2015 年,其包含共计 1,569,264 个样本,该子集的不同评级分别包含 130,000 个训练样本和 10,000 个测试样本。
2022-07-13 16:05:04 187.09MB 数据集