icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
2023-05-17 22:04:02 50.22MB 数据集
1
需要的jar全在里面。代码绝对可以运行,我昨天才试了的。速度很快
2022-07-21 11:29:57 4KB 分词 数据挖掘
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-07-13 16:05:37 50.2MB 数据集
三国演义txt文本——三国分词数据
2022-05-23 12:16:56 1.71MB 文档资料 三国演义 分词 自然语言处理
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-02-12 14:10:38 50.2MB 中文分词 microsoft 自然语言处理 nlp
1
本方法是基于BIOES标注的,如果为其它,请自行修改代码 正常ONE-HOT标注数据是按字标注的:如 反 复 胸 痛 1 5 年 B-PL E-PL B-ZZ E-ZZ B-SJ I-SJ E-SJ 经过BERT分词器分词后为: 反 复 胸 痛 15 年 这时候label就要重新修复下偏移了,修复后结果如下: B-PL E-PL B-ZZ E-ZZ B-SJ E-SJ
2022-01-19 14:02:57 1KB 自然语言处理 bert 人工智能 nlp
1
2nd International Chinese Word Segmentation Bakeoff - Data Release Release 1, 2005-11-18 * Introduction This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.
2021-06-14 19:15:40 50.25MB 中文数据集
1
此数据集用于NLP中分词训练使用,文档中的文字已经人工切分好词组,总共有65536个中国汉字组合而成
2021-04-04 20:09:03 7.37MB pku_training 分词数据
1
分词数据集,用于训练一个用来分词的模型。详细看压缩包里的内容。
2021-02-28 22:02:39 91.02MB 中文分词 分词模型 训练数据
1
基于CRF++的中文分词,包含了数据、CRF++工具、java源码,可以一键执行
2015-07-06 00:00:00 5.25MB CRF 中文分词
1