中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。 分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库。
2019-12-21 20:30:41 9.68MB 分词 词库 中文分词 中文分词词库
1
中文分词词库,中科院和北大标注。包括地名,名胜古迹,知名山川河流,还有1万多的成语,包括一部分搜狗互联网词库。已经整理成sql语句,直接导入数据库即可使用。非常方便!
2019-12-21 20:30:41 12.75MB 词库 分词 中文词库 中文分词
1
使用R语言中的jiebaR包,对中文文本进行分词,求词频,做词云图并进行LDA主题建模
2019-12-21 20:30:20 4KB LDA jieba
1
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
2019-12-21 20:28:58 2.12MB 语料库 人民日报 中文分词 语义
1
MyTxtSegTag分词和词性标注工具.exe
2019-12-21 20:28:51 3.46MB 分词 词性标注 工具
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份是经过验证的
2019-12-21 20:28:50 12.09MB 分词词库 自然语言处理
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份分类词库,包括财经、汽车、IT、数学、农业、动物、植物、成语、诗词、机构、地址、食物等
2019-12-21 20:28:50 12.21MB 分词词库 自然语言处理
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份同音异形词库
1
很好的分词软件…… 支持各种分词,对于中文分词效果更佳……
2019-12-21 20:28:43 6.97MB 分词
1
非常好用solr中文分词器(含使用手册) ,Solr4.x 此版本适用于高版本Solr4.x,IK 分词器 ,智能分析,与细粒度分析配置
2019-12-21 20:27:01 2.05MB 中文分词器 solr
1