中文分词词库,中科院和北大标注。包括地名,名胜古迹,知名山川河流,还有1万多的成语,包括一部分搜狗互联网词库。已经整理成sql语句,直接导入数据库即可使用。非常方便!
2019-12-21 20:30:41 12.75MB 词库 分词 中文词库 中文分词
1
使用R语言中的jiebaR包,对中文文本进行分词,求词频,做词云图并进行LDA主题建模
2019-12-21 20:30:20 4KB LDA jieba
1
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
2019-12-21 20:28:58 2.12MB 语料库 人民日报 中文分词 语义
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份同音异形词库
1
非常好用solr中文分词器(含使用手册) ,Solr4.x 此版本适用于高版本Solr4.x,IK 分词器 ,智能分析,与细粒度分析配置
2019-12-21 20:27:01 2.05MB 中文分词器 solr
1
中文分词是中文搜索引擎重要的一部分,分词词库为基于词典分词的中文分词算法提供了分词的依据。
2019-12-21 20:21:59 392KB 中文分词 词库
1
本程序是北京师范大学学生根据一个中文字库对所给的文章进行分词。有详细说明文档和exe文件,采用C语言编写,具体在文档中完全说明。采用的算法是正向最大匹配算法和反向最大匹配算法。主要实现屏幕分词和文件分词两项功能。因为对毕业设计有所帮助,所以我要分高一点哈~勿怪偶~
2019-12-21 20:17:39 481KB 中文分词 C语言 逆向 匹配
1
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
2019-12-21 20:14:24 3.22MB 中文分词 IK Analyzer
1
30万 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.txt,四十万汉语大词库.txt,四十万可用搜狗txt词库.txt,搜狗词库方法.txt,五笔词库.TXT 解压密码为:www.5eyi.com 想省资源分可以到http://www.5eyi.com/download-sphinx-chinese-word-lexicon-collected/下载
1
中文词典 NLP ,收录45159条中文词语,每行一个用 /n 隔开,方便拆分使用 哀怜 哀鸣 哀戚 ... 曝光 曝光表 曝露
2019-12-21 20:06:39 295KB 中文词典 中文分词
1