关键词提取数据集
用于开发、评估和测试关键字提取算法的不同数据集。 有关基准性能,请参阅:O. Medelyan。 2009. 。 博士论文。 新西兰怀卡托大学。
使用受控词汇表或同义词库作为来源提取关键字:
NLM_500.zip - 500 个带有 MeSH 术语的 PubMed 文档
fao780.tar.gz - 780 份带有Agrovoc术语的粮农组织出版物
fao30.tar.gz - 30 份粮农组织出版物,每份均由 6 位专业的粮农组织索引员注释
自由文本关键字提取(没有词汇表):
citeulike180.tar.gz - 从CiteULike抓取的 180 个出版物,以及保存这些出版物的不同 CiteULike 用户分配的关键字
SemEval2010-Maui.zip - Maui 格式的关键数据
keyphrextr.tar.gz - 使用 SemEval-
2022-05-16 20:16:33
71.92MB
1