CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
2019-12-21 19:47:41 6.3MB 自然语言处理 分词 语料库
1
基于贝叶斯分类的中文垃圾信息分类识别核心核心代码,可直接运行的源程序。public void loadTrainingDataChinies(File trainingDataFile,String infoType) { //加载中文分词其 NLPIR.init("lib"); // System.out.println(trainingDataFile.isFile()+"=============="); // 尝试加载学习数据文件 try { // 针对学习数据文件构建缓存的字符流,利用其可以采用行的方式读取学习数据 BufferedReader fileReader = new BufferedReader(new FileReader( trainingDataFile)); // 定义按照行的方式读取学习数据的临时变量 String data = ""; // 循环读取学习文件中的数据 while ((data = fileReader.readLine()) != null) { // System.out.println("*****************************"); //System.out.println(data+"000000000000000000000"); // 按照格式分割字符串,将会分割成两部分,第一部分为ham或spam,用于说明本行数据是有效消息还是垃圾消息,第二部分为消息体本身 //String[] datas = data.split(":"); // 对消息体本身进行简单分词(本学习数据均为英文数据,因此可以利用空格进行自然分词,但是直接用空格分割还是有些简单粗暴,因为没有处理标点符号,大家可以对其进行扩展,先用正则表达式处理标点符号后再进行分词,也可以扩展加入中文的分词功能) //首先进行中文分词 // System.out.println(datas[1]+"------------------------"); //if(datas.length>1) { //System.out.println(datas.length); String temp=NLPIR.paragraphProcess(data, 0); //System.out.println(temp); String[] words = temp.split(" ");
2019-12-21 19:45:49 14KB 垃圾信息 文本分类 贝叶斯
1
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
2019-12-21 19:43:10 5.46MB IKAnalyzer lucene6
1
屏幕取词源代码,支持多种语言,有vb vc 示范代码。屏幕字符截取,划词,可用于开发词典,桌面引擎等
2019-12-21 19:41:52 3.03MB 屏幕取词 屏幕抓取 分词 划词翻译
1
该程序调用IKAnalyzer3.2.3.jar提供的接口实现了对汉字词的简单分词,目前尚不支持对带有标点符号的段落的解析。
2019-12-21 19:39:47 6KB Ngram java 分词
1
盘古分词最新词库,盘古dll使用的词库,盘古分词词库。
2019-12-21 19:39:17 1.21MB 盘古分词词库
1
采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写
2019-12-21 19:38:07 1.91MB 机器学习 中文分词 词性标注 crf
1
基于条件随机场的中文分词方法,算法和理论介绍
2019-12-21 19:33:24 247KB 中文分词
1
使用Python,对爬取微博的评论,进行jieba分词,统计词频,修改路径即可。
2019-12-21 19:33:13 835B jieba 分词 微博评论
1
基于词典的最大正向/方向匹配算法的JAVA实现,附带Demo窗体和人民日报语料库。
2019-12-21 19:32:56 254KB 分词 Java
1