人民日报中文分词语料库
2021-10-02 18:41:05 2.56MB 人民日报 中文分词 语料库
1
一个用java写的中文分词程序,进行页面内容的分析
2021-09-27 16:43:25 3.43MB 分词 中文分词 java
1
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
2021-09-26 09:53:38 4.59MB 微软 亚洲研究院 中文分词 语料库
1
基于神经网络的中文分词技术研究.pdf
2021-09-25 22:05:51 1.09MB 神经网络 深度学习 机器学习 数据建模
主要介绍了python实现中文分词FMM算法,实例分析了Python基于FMM算法进行中文分词的实现方法,涉及Python针对文件、字符串及正则匹配操作的相关技巧,需要的朋友可以参考下
2021-09-25 13:05:19 36KB python 中文分词 FMM算法
1
sphinx-for-chinese中文分词字典xdict_1.1.txt资源下载
2021-09-18 09:33:35 3.8MB sphnix xdict_1.1.tx sphnix-for-c
1
中文分词 关键字提取 工具类详细文档 每秒60W字的处理量
2021-09-10 10:17:07 2.6MB 分词 中文 关键字提取
1
HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 最短路分词、N-最短路分词 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 感知机分词、CRF分词 词典分词(侧重速度,每秒数千万字符;省内存) 极速词典分词 所有分词器都支持: 索引全切分模式 用户自定义词典 兼容繁体中文 训练用户自己的领域模型 词性标注 HMM词性标注(速度快) 感知机词性标注、CRF词性标注(精度高) 命名实体识别 基于HMM角色标注的命名实体识别 (速度快) 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别 基于线性模型的命名实体识别(精度高) 感知机命名实体识别、CRF命名实体识别 关键词提取 TextRank关键词提取
2021-09-08 10:33:55 21.45MB Android代码
1
IK Analyzer官网的链接打不开,自己在网上苦苦搜了老半天。 支持solr8.x,最新可支持solr8.5,亲测!
2021-09-04 19:31:51 9.21MB 分词器 ik ik-analyzer 中文分词器
1
最全中文分词停止词词库-百度、哈工大、川大等集合,覆盖常用的所有的停用词词表,可以根据需要拿走
2021-09-03 17:25:48 13KB 停止词 中文 分词 哈工大
1