基于双向LSTM/keras/tensorflow的中文分词,语料为人民日报,分词准确率高达97%
2019-12-21 19:49:33 11.63MB 中文分词
1
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。
2019-12-21 19:48:10 115KB 全文检索 中文分词
1
基于贝叶斯分类的中文垃圾信息分类识别核心核心代码,可直接运行的源程序。public void loadTrainingDataChinies(File trainingDataFile,String infoType) { //加载中文分词其 NLPIR.init("lib"); // System.out.println(trainingDataFile.isFile()+"=============="); // 尝试加载学习数据文件 try { // 针对学习数据文件构建缓存的字符流,利用其可以采用行的方式读取学习数据 BufferedReader fileReader = new BufferedReader(new FileReader( trainingDataFile)); // 定义按照行的方式读取学习数据的临时变量 String data = ""; // 循环读取学习文件中的数据 while ((data = fileReader.readLine()) != null) { // System.out.println("*****************************"); //System.out.println(data+"000000000000000000000"); // 按照格式分割字符串,将会分割成两部分,第一部分为ham或spam,用于说明本行数据是有效消息还是垃圾消息,第二部分为消息体本身 //String[] datas = data.split(":"); // 对消息体本身进行简单分词(本学习数据均为英文数据,因此可以利用空格进行自然分词,但是直接用空格分割还是有些简单粗暴,因为没有处理标点符号,大家可以对其进行扩展,先用正则表达式处理标点符号后再进行分词,也可以扩展加入中文的分词功能) //首先进行中文分词 // System.out.println(datas[1]+"------------------------"); //if(datas.length>1) { //System.out.println(datas.length); String temp=NLPIR.paragraphProcess(data, 0); //System.out.println(temp); String[] words = temp.split(" ");
2019-12-21 19:45:49 14KB 垃圾信息 文本分类 贝叶斯
1
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
2019-12-21 19:43:10 5.46MB IKAnalyzer lucene6
1
采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写
2019-12-21 19:38:07 1.91MB 机器学习 中文分词 词性标注 crf
1
基于条件随机场的中文分词方法,算法和理论介绍
2019-12-21 19:33:24 247KB 中文分词
1
程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!
2019-12-21 19:28:15 5.25MB 中文分词、词性标注,聚类
1
hmm实现的中文分词系统; 一个简单的宋词生成系统; 包括一个简单网页界面;
1
access的分词词库,从网络搜集的近40万词汇,num字段代表关键词的热度
2019-12-21 19:25:54 5.17MB 中文分词 分词词库 中文搜索
1
中文分词词库中文分词词库中文分词词库中文分词词库中文分词词库
2019-12-21 19:24:35 7.46MB 中文分词词库
1