数据集CoNLL-2003,这一数据集是用于测试命名实体识别的早期训练数据,文本来源是报纸新闻。英文数据eng.train
2021-03-02 10:29:30 3.13MB word2vect
1
2007-EMNLP-CoNLL-Large-scale named entity disambiguation based on Wikipedia data
2021-01-28 04:28:51 228KB 知识图谱
1
OntoNotes 5.0的中文部分包括250K字的新闻专线数据,270K字的广播新闻和170K的广播会话。 新闻专线的数据来自中国树库5.0。 250K包括100K的新华新闻数据(chtb_001.fid到chtb_325.fid)和来自Sinorama新闻杂志的150K数据(chtb_1001.fid到chtb_1078.fid)。 广播新闻数据是来自TDT4的274K字,并且是从LDC为自动内容提取(ACE)程序注释的数据中选择的。已将这些文件的编号chtb_2000.fid分配给chtb_3145.fid。 广播对话数据是170K字,取自LDC的GALE数据。 50K的原始中文数据也用英文注释,另外55K的中文数据代表原始英语广播对话翻译成中文。 Web数据包括215K令牌,其中15K来自P2.5评估,86K来自Dev09数据。此外,110K的Web数据由40K并行中文源数据和70K并行英文原始数据组成。 电话会话语料库包括大约100K的中文CallHome数据,用解析,命题,名称和共同参考信息注释。
2020-01-03 11:25:54 67.81MB conll Ontonotes
1
这是我自己写的conll评测比赛的程序,希望对大家有帮助
2019-12-21 20:13:59 3.18MB conll metion提取 python
1
本人将conll相关的数据集做了整理,大家可以下载使用,我也写了相关的数据集的说明,也在我的博客里.希望大家有兴趣的可以一块交流学习.
2019-12-21 18:53:16 4.68MB conll语料库
1
CoNLL 2000 CRF结果评测perl程序
2009-06-22 00:00:00 13KB CoNLL 2000 CRF
1