词性标注源码,我们的源码是用C++来实现的,主要是实现了隐马尔科夫模型和维特比算法。
2021-11-11 21:06:23 2.72MB 中文词性标注 hmm
1
import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('english') #停用词 tokenizer=tk.WordPunctTokenizer() #分词器
2021-11-04 21:22:31 513KB 健康 分词 词性标注
1
本项目采用java实现了一个基于隐马尔可夫模型的中文句子词性标注系统,并附有详细的说明文档,对于想了解HMM和词性标注的人都会有很大帮助。
2021-10-27 15:58:48 4.37MB 隐马尔可夫 HMM 词性标注 中文分词
1
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
2021-10-22 18:36:57 4.05MB 分词器 nlpir 张华平 词性标注
1
Ansj中文分词 使用帮助 开发文档: , 摘要 这是一个基于n-Gram + CRF + HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词,中文姓名识别,用户自定义词典,关键字提取,自动摘要,关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 专家 org.ansj ansj_seg 5.1.1 调用演示 如果你第一次下载只想测试测试效果可以调用这个简易接口 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ; System.
2021-10-22 13:55:16 24.13MB java nlp chinese ansj
1
基于HMM进行词性标注示例 把/? 这/? 篇/? 报道/? 编辑/? 一/? 下/? 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v
2021-10-19 15:53:23 766KB 隐马尔科夫 自然语言
1
CwsPosNerEntityRecognition 中英文Cws Pos Ner实体识别工具,使用CNN双向lstm和crf模型,并带有char嵌入。基于字向量的CNN池化双向BiLSTM与CRF模型的网络,可能一体化的完成中文和英文分词,词性标注,实体识别。主要包括原始文本数据,数据转换,训练脚本,预训练模型,可用于序列标注研究。注意:唯一需要实现的逻辑是将用户数据转化为序列模型。分词准确率约为93%,词性标注准确率约为90%,实体标注(在本样本上)约为85%。 提示 中文分词,词性标注,实体识别,在使用上述模型时,本质是就是标注问题!!!如果您第一次使用相关的模型,只需加上self.c
2021-10-18 22:10:58 52.4MB nlp tensorflow crf keras
1
自然语言处理 高效的中文词法分析工具包
2021-10-13 10:07:09 50.47MB 安装包 中文分词 词性标注
1
词性标注按照国家语委词性标注集,编码为utf-8,未进行分句。
2021-09-13 07:32:17 9.49MB 词性标注 国家语委
1
postag.zip
2021-08-23 13:19:11 39.51MB 分词
1