22万词条,供大家学习使用。中文分词词典 中文自然语言处理基础
2019-12-21 21:11:04 2.09MB 中文 分词 词典 自然语言处理
1
基于字的用感知机实现的中文分词系统。完全训练后对微软的测试集精度可以达到96%多。我上传的版本是完整的代码(训练和分词),大家自己用附带的微软训练数据训练就可以了,只有一个文件。 代码总的来说写的还是很清楚的,方便自己也方便别人阅读。欢迎大家共讨论,xiatian@ict.ac.cn。
2019-12-21 21:11:02 4.92MB python 分词 感知机
1
1:中文分词 2:词频统计 3:罗列出要自动提取的关键字 ---------------------------------------- 具有60 万字/秒的高速处理能力。
2019-12-21 21:10:56 2.6MB 中文分词 关键字提取
1
java 实现的基于FMM BMM算法的,中文分词算法(代码)
2019-12-21 21:10:30 3.96MB FMM BMM java 分词
1
3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。
2019-12-21 21:07:39 14.89MB 中文分词
1
HMM隐马尔可夫模型用于中文分词HMM隐马尔可夫模型用于中文分词
2019-12-21 21:02:59 1.52MB 隐马尔可夫 中文分词
1
中文分词词典 适合最大正向匹配算法使用 共计548389条词语
1
NLPIR(ICTCLAS2013)是由张华平博士发布的中文分词系统,可用多种语言进行二次开发,该资源是用C#语言在VS2010环境下在http://www.nlpir.org/提供的原示例基础上进行改进后的示例程序。
2019-12-21 21:02:11 3.85MB NLPIR ICTCLS2013 分词 C#
1
Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。
2019-12-21 21:02:09 7.08MB Jieba 分词
1
文档中包含Lucene4.0.0版本jar包,中文分词器jar包,Lucene实例代码 1:建立索引 2:各种搜索方式方法 3:删除索引 4:检查索引文件 5:恢复删除的索引 6:强制删除 7:更新索引 8:合并索引 9:高亮回显 供大家参考学习 public static void main(String[] args) { LuceneUtil luceneUtil = new LuceneUtil(); // 创建索引 // luceneUtil.index(); // 搜索 luceneUtil.search(); // 删除索引 // luceneUtil.delete(); // 检查索引文件 // luceneUtil.check(); // 恢复删除的索引 // luceneUtil.unDelete(); // 强制删除 // luceneUtil.forceDelete(); // 更新索引 // luceneUtil.update(); // 合并索引 // luceneUtil.merge(); }
2019-12-21 21:01:08 60.02MB lucene 检索 索引 中文分词器
1