中文分词词库,格式如下: 00000001 李 168 n 00000002 李浩 133 nr2 00000003 互联网式 121 b ...
2019-12-21 19:57:36 7.18MB 中文分词字典 词性
1
其于原有20万带IDF权重的词典,经过去重,增加,合并后成了120万; 线上系统正在使用中,非常不错; 后面我会将常用度量的也加上。最终形成超全的词库
2019-12-21 19:56:44 15.97MB 分词 词库 IDF 词典
1
花了几天从各大名牌分词软件中提出的中文词组,已经对词组进行了整理和排序,保存成了三个txt文件,精简:74248个词组、常用:118021个词组、全部:222685个词组、常用标点符号文件共四个文件。
2019-12-21 19:56:20 1.24MB 中文分词
1
最新中文分词词库整理,中文分词,词库,四十万可用搜狗txt词库,30万 中文分词词库,百度分词词库,四十万汉语大词库
2019-12-21 19:55:04 6.36MB 中文分词 词库
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 19:54:45 300B 维基 中文语料 word2vec
1
NLPIR/ICTCLAS 2016分词工具包,适用java
2019-12-21 19:54:11 2.24MB NLPIR
1
处理中文地址的分词和匹配 采用混合分词算法进行中文地址分词 在中文地址分词基础上采用Double Levenshetin算法进行中文地址相似度进行地址匹配
2019-12-21 19:50:06 18.08MB 中文地址 地址分词 地址匹配 Levenshtein
1
使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并实现了高亮功能。高亮上使用的是盘古分词的高亮算法。 有点小bug,在这个字段没有关键字的时候可能会不显示数据, 如果要是只看全文检索,可以自己去掉高亮,看一下检索结果。
2019-12-21 19:49:46 2.24MB lucene.net 盘古分词 c# C#
1
基于双向LSTM/keras/tensorflow的中文分词,语料为人民日报,分词准确率高达97%
2019-12-21 19:49:33 11.63MB 中文分词
1
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。
2019-12-21 19:48:10 115KB 全文检索 中文分词
1