含有43万条非重复语料
2019-12-21 21:36:00 4.46MB 中分文分词 词典
1
elasticsearch-2.4.5 以及配套的 elasticsearch-analysis-ik-1.10.5 解压es,在es根目录建立plugins目录,在plugins下建立ik目录,解压ik到ik。
2019-12-21 21:33:38 30.37MB 全文搜索
1
“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“及网上各种资源整理去重后得到,包括一些数字及字符
2019-12-21 21:32:44 21KB 停用词 分词 中文 自然语言处理
1
各种版本的停用词,有746 902 1208 1447 1893 哈工大停用词 四川大学机器智能实验室停用词库 百度停用词等等。
2019-12-21 21:32:05 37KB 停用词表 分词
1
用于中文文本分词,去停用词,包含基本的停用词词典,可根据需要进行扩充。
2019-12-21 21:27:47 7KB 中文分词 去停用词
1
IKAnalyzer2012.jar,无私免费贡献
2019-12-21 21:27:18 1.12MB 中文分词
1
2017最新整理71.6万词库,适用于 elasticsearch 的 IK分词,解决搜索结果包含相关度低的稿件 解决方法: 1.丰富分词词库(由27.5万词,增加到71.6万词) 2.建索引时采用ik_max_word分词策略,搜索词分词采用ik_smart分词策略,平衡分词粒度,避免搜索不全或搜索不准
2019-12-21 21:26:02 8.52MB 分词 词库
1
中文分词器 mmseg4j luncene5.X 源码 jar包
2019-12-21 21:25:58 63KB 中文分词器 mmseg4j luncene5.X
1
jieba分词java版项目,解压文件后,用eclipse导入项目后,执行run包下的test程序即可。
2019-12-21 21:25:21 4.17MB jieba分词
1
solr4.10使用的中文分词器,包括IKAnalyzer2012FF_u1.jar,IKAnalyzer.cfg.xml,stopword.dic,及Cloudera平台下安装solr分词器教程
2019-12-21 21:21:03 398KB 中文分词
1