包括java编写的爬虫和用java代码实现的分词,以及Lda算法实现的相关代码!
2021-04-26 15:50:49 5.8MB java爬虫 中科院分词 lda算法
1
分词词库_中文分词词库最新整理(TXT格式)
2021-04-26 15:48:22 1.44MB 分词词库 结巴分词 中文分词
1
这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。
2021-04-25 09:52:17 40.47MB 分词 词库 中文分词
1
中文分词词库,包含清华词库,360w词库,词库大全,txt格式,含词性、词频
2021-04-24 22:06:31 86.61MB 词库 nlp词库
1
将需要分词进行词性标注的句子存放在corpus文本文件(自建)中,最好是每句话存为一行。注:corpus文件需放在代码所在文件夹里。运行代码,自动生成一个outcome文本文件,分词词性标注结果就在此文本里。
2021-04-24 18:41:13 715B jieba分词 词性标注 自动
1
最近在进行文本聚类的算法设计,涉及到分词,所以要用到停用词,整合网上许多份资料,整理得到此文档
2021-04-23 20:27:52 30KB 分词 停用词
1
虚词(的,是,标点符号等)统计
2021-04-22 11:20:48 3KB 分词
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份Trigram
2021-04-21 16:42:05 71.65MB 中文分词 自然语言处理
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份Bigram
2021-04-21 16:40:53 45.35MB 中文分词 自然语言处理 Bigram
1
用于IKAnalyzer分词器所需要的jar包,版本已经匹配好,不需要担心不兼容问题了。
2021-04-21 14:27:27 2.88MB IKAnalyzer
1