中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。 分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库
2019-12-21 20:30:41 9.68MB 分词 词库 中文分词 中文分词词库
1
中文分词词库,中科院和北大标注。包括地名,名胜古迹,知名山川河流,还有1万多的成语,包括一部分搜狗互联网词库。已经整理成sql语句,直接导入数据库即可使用。非常方便!
2019-12-21 20:30:41 12.75MB 词库 分词 中文词库 中文分词
1
词库包括200W左右的最新词,把这个词库作为搜索引擎分词的标准。 词库包括200W左右的最新词,把这个词库作为搜索引擎分词的标准。
2019-12-21 20:29:40 15.84MB 热词 词库
1
2019最新整理,去重复,格式都统一整理方便替换,去除了没有意思重复的,市面的几万几十万的都是滥竽充数的,自己用就整理了一下,有需要的自己下载吧,好不好自己来评价,纯手工整理
2019-12-21 20:29:10 1.12MB 同义词 同义词库 seo伪原创 伪原创词库
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份是经过验证的
2019-12-21 20:28:50 12.09MB 分词词库 自然语言处理
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份分类词库,包括财经、汽车、IT、数学、农业、动物、植物、成语、诗词、机构、地址、食物等
2019-12-21 20:28:50 12.21MB 分词词库 自然语言处理
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份同音异形词库
1
收集网络资源, 共20W左右中文同义词库, 可用于nlp, data mining等.
2019-12-21 20:27:02 3.26MB 同义词 近义词
1
103976个英语单词库,包含单词的词性及多种词义,用Sqlserver执行语句就可以生成表
2019-12-21 20:25:30 6.66MB 单词数据库
1
包含了日常用词,收录了大多的日常用词及其拼音,且已经排序,供开发基础数据使用
2019-12-21 20:25:24 2.55MB 常用词 词库
1