人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
2021-06-20 15:01:11 2.12MB 语料库 人民日报 中文分词 语义
1
IKAnalyzer2012FF 中文分词 solr5 solr5.x 支持solr5.x版本,解决java.lang.RuntimeException: java.lang.AbstractMethodError问题
2021-06-14 22:25:21 1.12MB IKAnalyzer 中文分词 solr5.x
1
用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器,
2021-06-13 19:47:56 4.3MB Elasticsearch7.6 ik分词器 中文分词器
1
爬取搜狗 2020-3-23 的所有字条,700 多 w 条。只有 txt,可用于 Elasticsearch 词库扩展。都在一个文件中,我已去重
2021-06-13 15:41:57 108.9MB 搜狗词条 ik 中文分词器词库
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
es中文分词器7.10.0
2021-06-09 17:06:20 4.17MB es中文分词器7.10
1
mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包
2021-06-07 17:01:56 15KB mmseg4j中文分词器
1
实验 词汇分析 1)使用任意分词方法编写算法实现汉语自动分词程序; 2)编写直接调用分词工具(jieba分词,中科院分词等)进行分词的程序; 3)用两种方法,给出至少50个句子的分词结果(以附件形式); 4)分别计算出两种分词结果的正确率,给出计算依据。
2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词
1
IKAnalyzer3.2.5Stable_bin.zip 稳定版, 里面带有词库
2021-06-07 13:10:50 1.74MB IKanalyzer 中文分词 3.2.5稳定版
1
这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。
2021-06-02 18:19:49 2.2MB 中文分词 词典
1