分词词库字典,主要为百度中文分词,主要用于中文jieba分词的自定义词典,或者其他分词工具的自定义词典等。
2019-12-21 20:50:47 8.71MB 分词
1
进行中文文本分词时,使用的是jieba分词工具。文档中演示了结巴分词器的.Net版本在VS2013中的使用流程。新人上货,请指正!
2019-12-21 20:49:25 320KB C# 中文分词 Jieba分词
1
java中文分词,协同过滤算法词频分析,javaGUI界面初步,生成java数据词云
2019-12-21 20:47:42 207KB java
1
JAVA中maven的使用,中文分词,以及了解协同过滤算法如何做词频分析
2019-12-21 20:47:41 44.81MB JAVA
1
自然语言处理课程的小作业,以新闻语料为基础,用HMM算法实现中文分词。按照每个字为B,E,S,M进行划分。以新闻语料为基础,用HMM算法实现中文分词。按照每个字为B,E,S,M进行划分。
2019-12-21 20:46:15 2.25MB HMM
1
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2019-12-21 20:45:48 108.12MB NLP 语料 中文分词语料 中文语料
1
整理的常用的停用词词表,此词表包含各种特殊字符、英文乱码、无用数字
1
simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词
2019-12-21 20:35:36 3KB 中文分词 simhash 中文相似度
1
IKAnalyzer2012FF_u1.jar solr中文分词器 最少要2分,不能选0分,很无语
2019-12-21 20:31:37 1.11MB 中文 分词器
1
中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。 分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库。
2019-12-21 20:30:41 9.68MB 分词 词库 中文分词 中文分词词库
1