上传者: 42100129
|
上传时间: 2022-01-05 15:30:42
|
文件大小: 5.34MB
|
文件类型: -
预处理的DUC 2001关键字提取基准数据集
该数据集已引入:
使用邻域知识的单文档关键词提取。 万晓军和肖建国。 在AAAI 2008年会议记录中。第855-860页。
数据集分为三个目录:
references :用于评估的参考关键词
test :测试集
src :从中构建数据集的脚本和存档
每个输入文件都是使用Stanford CoreNLP套件v3.6.0处理的。 我们使用默认参数并执行标记化,句子拆分和词性(POS)标记。 文件为XML格式。
参考关键字短语为json格式,并根据以下规则进行命名:
test.reader.[stem]?.json
读者提供的(无论是否阻塞)参考关键字短语以进行测试。
使用nltk Porter算法(英语)执行词干(如果已应用)。
以下是参考文件的玩具示例:
{
"doc-1": [
[