利用jieba分词进行文本的处理这里面是jieba分词所需要的词典和停用词
2019-12-21 20:42:12 2.9MB jieba
1
java版结巴分词工具,一个很好的中文分词工具。直接用eclipse打开,输入是一篇文章,然后输出是每个词的词频,并且词频是按照大小从次数最高到次数最低排的,只需要在test包里改部分代码就可以使用了。 不下你会后悔的。
2019-12-21 20:42:01 3.91MB 结巴分词
1
IK分词solr5.0.0
2019-12-21 20:37:53 1.1MB IK分词
1
整理的常用的停用词词表,此词表包含各种特殊字符、英文乱码、无用数字
1
结巴分词,jieba分词,统计分词出现的频率,按频率统计分词出现的频率。分词器功能,建议参考 elasticsearch的分词器,此分词器为入门级的分词拆分和分词频率统计
2019-12-21 20:36:08 6.44MB jieba分词 java 分词统计 结巴
1
simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词库
2019-12-21 20:35:36 3KB 中文分词 simhash 中文相似度
1
自己搜集来的词典,有重复的一些,自己甄别,里面包了清华大学词典,台湾大学词典,知网词典等,褒义词,贬义词,情感词一类的,反正挺多的
1
搜索下载了各种中英文停用词(哈工大、百度、四川人工智能实验室等等),最终整理优化了一个合集,供项目使用
2019-12-21 20:32:09 23KB 分词 停用词 中文停用词 哈工大
1
IKAnalyzer2012FF_u1.jar solr中文分词器 最少要2分,不能选0分,很无语
2019-12-21 20:31:37 1.11MB 中文 分词器
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2019-12-21 20:31:29 70KB 词频计算
1