UA-GEC:乌克兰语的语法错误纠正和流畅语料库
此存储库包含 UA-GEC 数据和随附的 Python 库。
数据
所有语料库数据和元数据都保存在./data 。 它有两个子文件夹用于
每个拆分(训练和测试)都有用于不同数据表示的更多子文件夹:
./data/{train,test}/annotated以带存储文档
./data/{train,test}/source和./data/{train,test}/target存储文档的原始版本和更正版本。 这些目录中的文本文件是没有注释标记的纯文本。 这些文件是根据带注释的数据生成的,在某种程度上是多余的。 我们保留它们是因为这种格式在某些用例中很方便。
元数据
./data/metadata.csv存储每个文档的元数据。 这是一个包含以下字段的 CSV 文件:
id (str):文档标识符。
author_id (str):文档作者标
1