实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果,开箱即用
2023-10-13 18:19:05 13.26MB 数据集
中文分词
2022-11-29 22:30:35 6.87MB 中文分词
1
icwb2-data Source : SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG汉“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用
2021-09-12 22:55:13 50.24MB dataset sighan icwb2-data scoring-script
1
2nd International Chinese Word Segmentation Bakeoff - Data Release Release 1, 2005-11-18 * Introduction This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.
2021-06-14 19:15:40 50.25MB 中文数据集
1
著名的Sighan Bakeoff语料。包含了训练集、测试集及测试集的(黄金)标准切分。
2019-12-21 20:35:03 2.33MB 命名实体识别 数据集
1
2006年sighan命名实体识别任务语料,MSRA提供。已经转成BIO格式,可直接用于NER训练
2019-12-21 20:29:10 7.18MB NER BIO格式 bakeoff2006 MSRA语料
1