HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
2021-05-20 13:48:15 34.47MB 停词 HanLP 分词 聚类
1
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善,性能高效,架构清晰,语料时新,可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-两字组(速度与精度最佳平衡;一百兆内存) 最短路分词,N-最短路分词 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 感知机分词,CRF分词 词典分词(侧重速度,每秒数千万字符;省内存) 极速词典分词 所有分词器都支持: 索引全切分模式 用户自定义词典 兼容繁体中文 训练用户自己的领域模型 词性标注 HMM词性标注(速度快) 感知机词性标注,CRF词性标注(精度高) 命名实体识别 基于HMM角色标注的命名实体识别(速度快) 中国人名识别,音译人名识别,日本人名识别,地名识别,实体机构名识别 基于线性模型的命名实体识别(精度高) 感知机命名实体识别,CRF命名实体识别 关键词提取 TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 拼音转换 多音字,声母,韵母,声调 简繁转换 简繁分歧词(简体,繁体,台湾正体,香港繁体) 文本推荐 语义推荐,拼音推荐,字词推荐 依存句法分析 基于神经网络的高性能依存句法分析器 基于ArcEager转移系统的柱搜索依存句法分析器 文本分类 情感分析 文本聚类 KMeans,Repeated Bisection,自动推断聚类数目k word2vec 词向量训练,加载,词语相似度计算,语义运算,查询,KMEANS聚类 文档语义相似度计算 语料库工具 部分默认模型训练自小型语料库,鼓励用户自行训练。模块所有提供训练接口,语料可参考98年人民日报语料库。 在提供丰富功能的同时,HanLP内部模块坚持低耦合,模型坚持惰性加载,服务坚持静态提供,词典坚持明文发布,使用非常方便。默认模型训练自全世界最大规模的中文语料库,同时自带一些语料处理工具,帮助用户训练自己的模型。
1
1. 前言 中文分词≠自然语言处理! Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB
2021-05-09 17:46:14 143KB hanlp lp nl
1
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
2021-05-07 18:29:24 34.58MB 分词 HanLP 聚类 提取关键词
1
HanLp和Stanford Corenlp完整代码、运行文件和运行结果
2021-04-29 14:05:36 820KB hanlp stanfordcorenlp nlp 句法分析
23万字【超级丰富同义词库】同义词库,可用各个领域,es同义词库,hanlp同义词库 比如: Aa01A01= 人 士 人物 人士 人氏 人选 Aa01A02= 人类 生人 全人类 Aa01A03= 人手 人员 人口 人丁 口 食指 Aa01A04= 劳力 劳动力 工作者 Aa01A05= 匹夫 个人 Ab04B01= 儿童 孩童 稚童 童稚 童子 孩子 孩儿 孩子家 小儿 小人儿 雏儿 幼儿 娃儿 娃娃 娃子 小子 小小子 竖子 孺子 稚子 童蒙 幼 童 孩 小 孺 囡 小朋友 小不点儿 少年儿童 童男童女 报童 少儿 小孩 小孩子 幼童 小娃 文童 伢儿 女孩儿 毛孩子 小家伙 Ab04B02= 妞 妮子 妮儿 丫头 黄毛丫头 阿囡 女孩子 小妞 女童 Ab04B03= 顽童 小淘气 淘气鬼 孩子头 孩子王 淘气包 Ab04B04= 男童 男孩儿 童男
2021-04-16 14:01:37 872KB 同义词库 es词库 es hanlp
1
hanlp目前最新依赖包
2021-04-14 11:17:03 1.75MB nlp
1
hanlp data包 1.7.5
2021-03-31 15:23:40 666.67MB nlp
1
hanlp.properties,HanLP是由一系列模型与算法组成的Java工具包,此文件为hanlp的配置文件
2021-03-24 15:04:13 2KB 自然语言处理 NLP hanlp.properties
1
HanLP-1.8.0.zip
2021-03-08 21:07:58 21.52MB 自然语言处理
1