资源包含文件:课程报告word+源码+截图 对汉语自动分词技术有一个全面的了解,包括从词典的建立、分词算法的实现、性能评价和优化等环节。详细介绍参考:https://blog.csdn.net/sheziqiong/article/details/126794356
2022-10-18 14:05:00 913KB Python 汉语分词 汉语分词系统 源码
这是一篇关于自然语言处理的论文,介绍了汉语分词的n-gram算法,绝对值得推荐
2022-09-28 21:40:47 1.09MB n-gram 机器学习 汉语分词
1
基于CRF 的先秦汉语分词标注一体化研究
2022-05-02 10:04:09 242KB 文档资料
一种基于N-gram模型和机器学习的汉语分词算法,不错的分词算法。
2022-04-11 11:23:27 1.09MB 汉语分词 n-gram
1
《信息处理用现代汉语分词规范》:研究分词或者自然语言处理的必备啊。
2021-10-09 23:26:12 50KB 中文分词 规范
1
icwb2-data Source : SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG汉“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用
2021-09-12 22:55:13 50.24MB dataset sighan icwb2-data scoring-script
1
软件介绍: 最新版本的NLPIR-ICTCLAS-master中科院分词系统软件包,在加上用户词典和去除停用词后,实际使用效果不错。要利用本分词系统具体实现方法可以网络上查找相关资料。支持MacOS、Linux、Windows系统。
2021-07-23 16:43:52 18.02MB 其他资源
1
汉语大词库。总量为四十多万个。可以用于jieba等分词模块的分词的时候用。也可以自定义作为专业文档的分词的词典用。
2021-07-19 09:02:33 766KB 词库
1
2nd International Chinese Word Segmentation Bakeoff - Data Release Release 1, 2005-11-18 * Introduction This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.
2021-06-14 19:15:40 50.25MB 中文数据集
1
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
2019-12-21 19:47:41 6.3MB 自然语言处理 分词 语料库
1