达观数据NLP特刊:从原理到实践,包含基于深度学习的中文分词,个性化推荐,搜索引擎排序,推荐系统冷启动问题解决方案
1
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
2019-12-21 20:00:14 1.11MB IKAnalyzer
1
中文分词词库,格式如下: 00000001 李 168 n 00000002 李浩 133 nr2 00000003 互联网式 121 b ...
2019-12-21 19:57:36 7.18MB 中文分词字典 词性
1
花了几天从各大名牌分词软件中提出的中文词组,已经对词组进行了整理和排序,保存成了三个txt文件,精简:74248个词组、常用:118021个词组、全部:222685个词组、常用标点符号文件共四个文件。
2019-12-21 19:56:20 1.24MB 中文分词
1
最新中文分词词库整理,中文分词,词库,四十万可用搜狗txt词库,30万 中文分词词库,百度分词词库,四十万汉语大词库
2019-12-21 19:55:04 6.36MB 中文分词 词库
1
基于双向LSTM/keras/tensorflow的中文分词,语料为人民日报,分词准确率高达97%
2019-12-21 19:49:33 11.63MB 中文分词
1
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。
2019-12-21 19:48:10 115KB 全文检索 中文分词
1
基于贝叶斯分类的中文垃圾信息分类识别核心核心代码,可直接运行的源程序。public void loadTrainingDataChinies(File trainingDataFile,String infoType) { //加载中文分词其 NLPIR.init("lib"); // System.out.println(trainingDataFile.isFile()+"=============="); // 尝试加载学习数据文件 try { // 针对学习数据文件构建缓存的字符流,利用其可以采用行的方式读取学习数据 BufferedReader fileReader = new BufferedReader(new FileReader( trainingDataFile)); // 定义按照行的方式读取学习数据的临时变量 String data = ""; // 循环读取学习文件中的数据 while ((data = fileReader.readLine()) != null) { // System.out.println("*****************************"); //System.out.println(data+"000000000000000000000"); // 按照格式分割字符串,将会分割成两部分,第一部分为ham或spam,用于说明本行数据是有效消息还是垃圾消息,第二部分为消息体本身 //String[] datas = data.split(":"); // 对消息体本身进行简单分词(本学习数据均为英文数据,因此可以利用空格进行自然分词,但是直接用空格分割还是有些简单粗暴,因为没有处理标点符号,大家可以对其进行扩展,先用正则表达式处理标点符号后再进行分词,也可以扩展加入中文的分词功能) //首先进行中文分词 // System.out.println(datas[1]+"------------------------"); //if(datas.length>1) { //System.out.println(datas.length); String temp=NLPIR.paragraphProcess(data, 0); //System.out.println(temp); String[] words = temp.split(" ");
2019-12-21 19:45:49 14KB 垃圾信息 文本分类 贝叶斯
1
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
2019-12-21 19:43:10 5.46MB IKAnalyzer lucene6
1
采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写
2019-12-21 19:38:07 1.91MB 机器学习 中文分词 词性标注 crf
1