icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-07-13 16:05:37 50.2MB 数据集
jeasy.analysis.MMAnalyzer包,网上资源挺少的,要么就是要很多积分下载,技术嘛,应该免费分享,所以我就不设置积分了,大家可以随意下载。
2022-07-05 17:14:22 1.57MB java jar 中文分词 开发语言
1
sphider是一个开源的轻量级php+mysql全文搜索引擎,带蜘蛛功能,但是对中文支持不友好。 本版本对后台界面进行了汉化,并且对编码及数据库进行了utf8编码统一,完美解决中文乱码问题。 同时应用scws分词系统解决中文分词问题,并修正了中文搜索时不能正确返回信息的bug。 是搜索引擎开发入门的理想之选。
1
针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。 jieba分词 ji
2022-06-27 16:44:41 60KB ie jieba 中文分词
1
中文停用词表,共3185个停用词,该列表是本人搜集了网上目前比较热门的中文停用词表然后去重后又根据自己的实际业务人工添加了三四百个停用词得到的。
2022-06-16 00:21:03 20KB 中文分词停用词 停用词表
1
Rust 中的中文分词算法 MMSEG
2022-06-12 14:05:23 467KB 算法 rust
中文分词处理源代码,C++写的,用的树形构造
2022-06-07 20:05:42 6KB 中文分词 源代码 C++
1
中文分词工具包 smallseg
2022-06-06 14:02:32 1.1MB 中文分词 源码软件 自然语言处理 nlp
中文分词库 IKAnalyzer
2022-06-02 22:01:28 1.12MB 中文分词 自然语言处理 nlp
最大匹配中文分词算法在垂直搜索引擎中的应用.doc
2022-05-30 14:06:07 86KB 搜索引擎 文档资料 中文分词 算法