汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库。 注意:分词时,不一定是词库中的词越多,效果越好。
2019-12-21 22:19:38 10.34MB 中文分词 分词 词库 分词词库
1
斯芬克斯全中文搜索引擎加自动分词mysql+swsc+php,全文索引
2019-12-21 22:18:05 10.56MB 全文索引 spinx 自动分词
1
参考网络资源使用IKAnalyzer分词组件,实现了纯Java语言、MapReduce模式及Spark 框架三种方式对唐诗宋词等国学经典进行中文分词统计排序的功能,你可以轻松发现唐诗宋词中最常用的词是那几个。
2019-12-21 22:08:28 379KB Spark Java MapReduce IKAnalyzer
1
最大匹配法分词Python,文档,代码齐全。注释齐全。输入为人民日报标准语料库。10分绝对不亏。
2019-12-21 22:05:08 3MB 分词 最大匹配法 Python NLP
1
solr配置用到的IKAnalyzer分析器所需要的jar包及配置文件
2019-12-21 22:04:08 1.12MB IKAnalyzer
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2019-12-21 22:00:56 71KB 分词 去停用词 词频计算
1
IK分词用到的jar包
2019-12-21 21:58:12 1.11MB IK 分词
1
分了26类的体育语料,包括棒球 帆船 击剑 举重 篮球 垒球 马术 排球 皮划艇 乒乓球 曲棍球 拳击 柔道 赛艇 射击 射箭 手球 摔跤 跆拳道 体操 田径 网球 游泳 羽毛球 自行车 足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然语言处理
2019-12-21 21:57:30 8.35MB 体育 分词 语料
1
使用R语言中的jiebaR包,对中文文本进行分词,求词频,做词云图并进行LDA主题建模。
2019-12-21 21:43:48 14KB jiebaR,LDA
1
结巴分词用到的资源文件,使用方式见博客
2019-12-21 21:36:01 1.88MB jieba分词
1