IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
2021-05-11 18:34:47 2.46MB IKAnalyzer
1
中文最全停用词表
2021-05-11 15:28:36 44KB 停用词表 中文分词
1
IT 16000条 财经 3830条 成语 8519条 地名 44805条 历史名人 13658条 诗词 13703条 医学 18749条 饮食 8974条 法律 9896条 汽车 1752条 动物 17287条
1
中文检索盘古分词管理
2021-05-11 11:02:36 189KB 工具
1
' ' 窗口启动的时候,初始化类会把数据库载入内存,以增加运算速度,所以占用内存稍微大一点,如果不喜欢,可以修改类初始化部分{方初始化()} ' 子重置词典数据库() 这个功能用于自定义词库,吧文本词库转换为sqlite数据库词库 ' 词库文件保存在运行目录kic.txt ' 词库数据库为disk.db ' 词库数据保存在sqlite数据库中,没有找到更好的,更快的查找文本的方式,只能先用数据库了 在 子重置词典数据库(),和 方初始化() 这两个方法(函数)中有一定的信息框的错误提示,实际应用最好改成其他提示方式,而且提示错误后程序并不会终止,需要主程序自己判断 词库比较小,分词精度估计不高大,建议实际应用的时候才用更大,跟完整的词库,最好根据内容的相关性这样最好. 提供一个我自己用的词库,主要用于购物网站的分词的,在程序文件夹得kic1.txt里面 修改成kic.txt 然后重新生成数据库就行了 ' 此文件算法根据织梦中文分词php版本的简化版本修改而来,如果用于商业请自行考虑版权问题 '关键字自动获取php源码 这个文件夹里面的就是原来的php文件,应该是老版本的织梦cms里面提取出来的....这是一个简化版本的分词程序 .简化了一些算法,我也是根据这个php文件修改而来的.所以这个分词算法用于提权关键字是比较合适的 .用于更高的要求估计还不够合适 .sqlite采用的是kyozy的sqlite模块,因为他的模块可以吧数据库读入内存... .程序中还有许多可以提升速度的地方....比如说使用的数据库感觉应该有很好的方法...但是没有找到 .欢迎大家指正..做的更好 ' 作者: www.liuxingou.com 十年一剑
2021-05-11 06:07:19 3.13MB 易语言 中文分词 开源
1
es+kibana+analysis-ik.zip
2021-05-10 18:02:56 580.41MB es kibana 分词器
1
elasticsearch中文分词插件 7.4.2版本
1
结巴分词用到的资源文件sougou.dict,使用方式见本人的博客。https://blog.csdn.net/JohnnyChu/article/details/100920349
2021-05-10 03:07:11 1.05MB jieba分词包 结巴分词包 sougou.dict
1
本人最近在用lucene做一些东西,需要用到jieba分词器。但csdn上的资源都是需要积分的,一个开源软件竟然还要积分。。。从github找的,分享给大家吧
2021-05-09 17:35:27 2.45MB java jieba
1
情感词, ,共享,情感词,
2021-05-09 11:52:43 1.52MB 情感词 分词 免费
1