icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
2023-05-17 22:04:02 50.22MB 数据集
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-07-13 16:05:37 50.2MB 数据集
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
2022-03-22 20:48:45 40.82MB 中文分词语料
1
icwb2-data.zip的资源
2021-12-16 09:09:32 50.2MB 自然语言处理
1
PKU语料库,免费供广大自然语音爱好者你能方便下载人民日报提供的汉语语料库。方便学习。训练集pku_training.utf8,用来训练模型的参数,测试集 pku_test.utf8,用来测验模型的最终准确率。
2021-10-20 22:17:25 50.2MB 汉语语料库 icwb2 NLP 自然语音
1
icwb2-data Source : SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG汉“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用
2021-09-12 22:55:13 50.24MB dataset sighan icwb2-data scoring-script
1