搜索【中文分词】的结果

IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包下载

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

2021-05-13 19:15:29 1.11MB IK-Analyzer Solr

1

IKAnalyzer2012.jar

IKAnalyzer2012.jar 中文分词包

2021-05-13 17:22:22 1.12MB 中文分词包

1

中文分词程序-正向最大匹配算法及逆向最大匹配算法

运用正向最大匹配算法进行分析，同时也实现了逆向最大匹配，内有分词词典。

2021-05-13 10:32:14 4.18MB 中文分词 中文信息处理 正向最大匹配

1

IKAnalyzer 中文分词完整java项目demo

IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。这个是一个完整的java项目demo。直接可以用，不用再去google下载了。添加了几个自定义词汇，测试好用。运行ika.java里的main方法即可

2021-05-11 18:34:47 2.46MB IKAnalyzer

1

中文分词最全停用词表

中文最全停用词表

2021-05-11 15:28:36 44KB 停用词表 中文分词

1

清华大学开放中文词库-中文分词.zip

IT 16000条财经 3830条成语 8519条地名 44805条历史名人 13658条诗词 13703条医学 18749条饮食 8974条法律 9896条汽车 1752条动物 17287条

2021-05-11 12:04:24 1.2MB 清华大学开放词库 中文分词 中文词库

1

开源_易语言中文分词_非网页调用

' ' 窗口启动的时候,初始化类会把数据库载入内存,以增加运算速度,所以占用内存稍微大一点,如果不喜欢,可以修改类初始化部分{方初始化()} ' 子重置词典数据库() 这个功能用于自定义词库,吧文本词库转换为sqlite数据库词库 ' 词库文件保存在运行目录kic.txt ' 词库数据库为disk.db ' 词库数据保存在sqlite数据库中,没有找到更好的,更快的查找文本的方式,只能先用数据库了在子重置词典数据库(),和方初始化() 这两个方法(函数)中有一定的信息框的错误提示,实际应用最好改成其他提示方式,而且提示错误后程序并不会终止,需要主程序自己判断词库比较小,分词精度估计不高大,建议实际应用的时候才用更大,跟完整的词库,最好根据内容的相关性这样最好. 提供一个我自己用的词库,主要用于购物网站的分词的,在程序文件夹得kic1.txt里面修改成kic.txt 然后重新生成数据库就行了 ' 此文件算法根据织梦中文分词php版本的简化版本修改而来,如果用于商业请自行考虑版权问题 '关键字自动获取php源码这个文件夹里面的就是原来的php文件,应该是老版本的织梦cms里面提取出来的....这是一个简化版本的分词程序 .简化了一些算法,我也是根据这个php文件修改而来的.所以这个分词算法用于提权关键字是比较合适的 .用于更高的要求估计还不够合适 .sqlite采用的是kyozy的sqlite模块,因为他的模块可以吧数据库读入内存... .程序中还有许多可以提升速度的地方....比如说使用的数据库感觉应该有很好的方法...但是没有找到 .欢迎大家指正..做的更好 ' 作者: www.liuxingou.com 十年一剑

2021-05-11 06:07:19 3.13MB 易语言 中文分词 开源

1

WordSeg:BiLSTM \ BERT \ Roberta（+ CRF）模型的PyTorch实现，用于中文分词-源码

中文分词本项目为中文分词任务baseline的代码实现，模型包括 BiLSTM-CRF 基于BERT的+ X（softmax / CRF / BiLSTM + CRF）罗伯塔+ X（softmax / CRF / BiLSTM + CRF）本项目是的项目。数据集数据集第二届中文分词任务中的北京大学数据集。模型本项目实现了中文分词任务的baseline模型，对应路径分别为： BiLSTM-CRF BERT-Softmax BERT-CRF BERT-LSTM-CRF 其中，根据使用的预训练模型的不同，BERT-base-X模型可转换为Roberta-X模型。要求此仓库已在Python 3.6+和PyTorch 1.5.1上进行了测试。主要要求是： tqdm scikit学习火炬> = 1.5.1 :hugging_face: 变压器== 2.2.2 要解决环境问题，请运行：

2021-05-07 19:47:06 15KB pytorch bert chinese-word-segmentation bilstm-crf

1

30万中文分词词库.txt

2021-05-06 09:04:12 8.01MB 分词词库

1

结巴中文分词源代码

中文分词、标注系统源代码，我用过挺好的跟大家分享一下

2021-05-05 19:48:23 9.64MB 分词标注中文 结巴分词

1

个人信息

热门下载

最新下载

其他资源