关系抽取任务采用DuIE2.0数据集,包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。数据集分为以下5个部分:
关系schema:48个预定义的关系类型,其中43个简单O值的关系类型,5个复杂O值的关系类型。
训练集:共17万个句子,包含句子中对应的SPO,用于竞赛模型训练。
验证集:共2万个句子,包含句子中对应的SPO,用于竞赛模型训练和参数调试。
测试集: 约2万个句子,不包含句子中对应的SPO。该数据用于作为最终的系统效果评估。
注:另外为了防止针对测试集的调试,数据中将会额外加入混淆数据。
2023-03-09 20:38:12
36.81MB
NLP
1