上传者: 42143092
|
上传时间: 2021-11-04 08:46:33
|
文件大小: 960.91MB
|
文件类型: -
基准短语提取基准数据集
该存储库包含大量精选的基准数据集,用于评估自动关键词提取算法。 这些数据集均使用Stanford CoreNLP套件进行了预处理,并以XML格式提供。
数据集格式
所有数据集均按照以下通用结构存储:
dataset/
/test/ <- test documents
/train/ <- training documents (if available)
/dev/ <- validation documents (if available)
/src/ <- e