本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
2021-08-22 16:39:51 345KB CRF 中文词性标注
1
融合聚类触发对特征的最大熵词性标注模型.pdf
2021-08-21 13:03:56 432KB 聚类 算法 数据结构 参考文献
BiLSTM-POS-Tagger 基于双向LSTM网络(PyTorch)的词性标注器 要训​​练网络,请使用rnn_train.py(确保提供带标签的数据集) 要加载网络并标记句子,请使用rnn_annotate.py Data.py和TaggerModel.py包含各自的类
2021-08-14 23:05:58 10.85MB Io
1
corenlp中的词性标注缩写含义使用的是Penn Treebank tag set,这是全部对应缩写的含义,这份资源下载自https://www.eecis.udel.edu/~vijay/cis889/ie/pos-set.pdf
2021-08-14 00:42:21 55KB nlp pos tag 词性标注标签含义
1
资源为1998年人民日报1-6月份带词性标注的语料库中的1998年3月份的语料,其他月份的语料可以到我的主页下载,亦可私信我获取。
2021-08-10 15:32:53 11.35MB 人民日报 词性标注 语料库 nlp
1
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
2021-07-08 15:02:47 6MB 分词 去除停用词 word2vec TF-IDF
Sequence labeling base on universal transformer (Transformer encoder) and CRF; 基于Universal Transformer CRF 的中文分词和词性标注
2021-06-25 15:54:54 97KB Python开发-自然语言处理
1
很好用的工具,可进行分词和词性标注!!!!!!!!!!!!!!!!!
2021-06-21 15:16:17 3.46MB 分词 词性标注 工具
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
分词词库_词性人民日报199801.txt
2021-06-08 16:51:53 10.18MB 分词 自然语言处理 词性标注
1