OntoNotes-5.0-NER-BIO
这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。
简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。
步骤1:获取官方的O
1