中文缩写语料库
这是论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》 发布的数据集。
缩写是跨语言的普遍现象,尤其是在汉语中。 在大多数情况下,如果一个表达式可以缩写,那么它的缩写比其完全扩展的形式使用得更频繁,因为人们倾向于以最简洁的方式传达信息。 对于各种语言处理任务,缩写是提高性能的障碍,因为缩写的文本形式不能表达有用的信息,除非将其扩展为完整形式。 缩写预测意味着将完全展开的形式与其缩写相关联。 然而,由于缩写语料库的不足,这样的任务在当前的研究中受到限制,特别是考虑到一般的缩写预测还应该包括那些没有有效缩写的完整形式表达,即否定完整形式(NFFs)。 包含用于一般缩写预测的否定完整形式的语料库数量很少。 为了促进该领域的研究,我们构建了一个通用中文缩写预测数据集,
2021-08-05 16:04:26
157KB
1