搜索【中文分词】的结果

Python-各大中文分词性能评测

jieba（结巴分词）免费使用 HanLP（汉语言处理包）免费使用 SnowNLP（中文的类库）免费使用 FoolNLTK（中文处理工具包）免费使用 Jiagu（甲骨NLP）免费使用 pyltp（哈工大语言云）商用需要付费 THULAC（清华中文词法分析工具包）商用需要付费 NLPIR（汉语分词系统）付费使用

2021-10-16 16:25:57 27.95MB Python开发-其它杂项

1

中文分词及词语出现的次数计算.zip

随便下载一篇中文的文本文档，通过这个程序可以将文档进行分词处理，还能够统计词语出现的次数

2021-10-16 12:49:00 664B Python 源代码 中文分词

1

IK中文分词器原理

详细讲解IK分词器原理

2021-10-14 19:08:36 501KB IK 分词

1

word分词器java源码-friso:中文分词器

word分词器java源码

2021-10-14 10:47:22 793KB 系统开源

1

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt d:/word.txt exit 2、对文本进行分词移除停用词：List words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者"); 保留停用词：List words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者"); System.out.println(words); 输出：移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者] 保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者] 3、对文件进行分词 String input = "d:/text.txt"; String output = "d:/word.txt"; 移除停用词：WordSegmenter.seg(new File(input), new File(output)); 保留停用词：WordSegmenter.segWithStopWords(new File(input), new File(output)); 4、自定义配置文件默认配置文件为类路径下的word.conf，打包在word-x.x.jar中自定义配置文件为类路径下的word.local.conf，需要用户自己提供如果自定义配置和默认配置相同，自定义配置会覆盖默认配置配置文件编码为UTF-8 5、自定义用户词库自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径用户词库由多个词典文件组成，文件编码为UTF-8 词典文件的格式为文本文件，一行代表一个词可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开类路径下的词典文件，需要在相对路径前加入前缀classpath: 指定方式有三种：指定方式一，编程指定（高优先级）： WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic"); DictionaryFactory.reload();//更改词典路径之后，重新加载词典指定方式二，Java虚拟机启动参数（中优先级）： java -Ddic.path=classpath:dic.txt，d:/custom_dic 指定方式三，配置文件指定（低优先级）：使用类路径下的文件word.local.conf来指定配置信息 dic.path=classpath:dic.txt，d:/custom_dic 如未指定，则默认使用类路径下的dic.txt词典文件 6、自定义停用词词库使用方式和自定义用户词库类似，配置项为： stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic 7、自动检测词库变化可以自动检测自定义用户词库和自定义停用词词库的变化包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径如： classpath:dic.txt，classpath:custom_dic_dir, d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt classpath:stopwords.txt，classpath:custom_stopwords_dic_dir， d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt 8、显式指定分词算法对文本进行分词时，可显式指定特定的分词算法，如： WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationA

2021-10-14 02:28:15 10.41MB 中文分词

1

thulac-0.2.1.tar.gz

自然语言处理高效的中文词法分析工具包

2021-10-13 10:07:09 50.47MB 安装包 中文分词 词性标注

1

《信息处理用现代汉语分词规范》

《信息处理用现代汉语分词规范》：研究分词或者自然语言处理的必备啊。

2021-10-09 23:26:12 50KB 中文分词 规范

1

聚焦搜索引擎java实现（含代码及文档）

java实现的聚焦爬虫搜索引擎，聚焦爬虫，网络爬虫，中文分词，网页下载，html解析，内存数据库，索引，搜索

2021-10-09 09:36:55 41.74MB 聚焦搜索引擎 网络爬虫 中文分词 网页下载

1

nlp:自然语言处理：中文分词，打标签，文章匹配相似度，机器学习-源码

nlp 自然语言处理：中文分词，打标签，文章匹配相似度打标签： extra_tags.py：关键函数：extarct_tags ，通过help(jieba.analyse.extarct_tags) 查看函数提示如下： withWeight：单词权重 allowPOS：单词性质，参看 withFlag： ====================================================== Help on method extract_tags in module jieba.analyse.tfidf: extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance

2021-10-08 14:31:27 47KB Python

1

69万大词库【中文分词必备】

2021-10-04 14:18:07 2.26MB 中文分词 69万大词库

1

个人信息

热门下载

最新下载

其他资源