中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

中文分词

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt d:/word.txt exit 2、对文本进行分词移除停用词：List words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者"); 保留停用词：List words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者"); System.out.println(words); 输出：移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者] 保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者] 3、对文件进行分词 String input = "d:/text.txt"; String output = "d:/word.txt"; 移除停用词：WordSegmenter.seg(new File(input), new File(output)); 保留停用词：WordSegmenter.segWithStopWords(new File(input), new File(output)); 4、自定义配置文件默认配置文件为类路径下的word.conf，打包在word-x.x.jar中自定义配置文件为类路径下的word.local.conf，需要用户自己提供如果自定义配置和默认配置相同，自定义配置会覆盖默认配置配置文件编码为UTF-8 5、自定义用户词库自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径用户词库由多个词典文件组成，文件编码为UTF-8 词典文件的格式为文本文件，一行代表一个词可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开类路径下的词典文件，需要在相对路径前加入前缀classpath: 指定方式有三种：指定方式一，编程指定（高优先级）： WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic"); DictionaryFactory.reload();//更改词典路径之后，重新加载词典指定方式二，Java虚拟机启动参数（中优先级）： java -Ddic.path=classpath:dic.txt，d:/custom_dic 指定方式三，配置文件指定（低优先级）：使用类路径下的文件word.local.conf来指定配置信息 dic.path=classpath:dic.txt，d:/custom_dic 如未指定，则默认使用类路径下的dic.txt词典文件 6、自定义停用词词库使用方式和自定义用户词库类似，配置项为： stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic 7、自动检测词库变化可以自动检测自定义用户词库和自定义停用词词库的变化包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径如： classpath:dic.txt，classpath:custom_dic_dir, d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt classpath:stopwords.txt，classpath:custom_stopwords_dic_dir， d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt 8、显式指定分词算法对文本进行分词时，可显式指定特定的分词算法，如： WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationA

文件下载

评论信息

abc1755503541 :

可以使用，感觉挺好用的
2017-06-13
fugybdt :

不错不错，辛苦了
2016-08-25
yangfande362 :

不错，比较好用的一款分词工具了。准确率和速度都还可以。
2016-02-21
u011436072 :

超级好用，速度非常快，操作简单
2015-06-22

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载