语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注。
2022-11-28 11:20:25 25.77MB 中文语料库 分词 词性标注 现代汉语
1
1998年人民日报语料库全 可用于中文分词,词频统计,等自然语言处理领域
2021-06-03 13:58:46 2.69MB 人民日报 语料库 分词 标注
1
汉语语料库,包含9000多个文本,涵盖新闻、论文、散文、小说等多种类型的文本,经过了分词和词性标注的精加工。
2019-12-21 20:13:19 31.68MB 语料库
1
搜狗语料库,自己用结巴分词分好的。(为什么摘要必须大于50个字)
2019-12-21 19:21:49 16.3MB 语料库;分词
1
小黄鸡语料库,包含分词以及未分词,可以用于自然语言处理。
2019-12-21 18:50:16 12.25MB 语料库 小黄鸡
1