词性标注按照国家语委词性标注集,编码为utf-8,未进行分句。
2021-09-13 07:32:17 9.49MB 词性标注 国家语委
1
postag.zip
2021-08-23 13:19:11 39.51MB 分词
1
本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
2021-08-22 16:39:51 345KB CRF 中文词性标注
1
融合聚类触发对特征的最大熵词性标注模型.pdf
2021-08-21 13:03:56 432KB 聚类 算法 数据结构 参考文献
BiLSTM-POS-Tagger 基于双向LSTM网络(PyTorch)的词性标注器 要训​​练网络,请使用rnn_train.py(确保提供带标签的数据集) 要加载网络并标记句子,请使用rnn_annotate.py Data.py和TaggerModel.py包含各自的类
2021-08-14 23:05:58 10.85MB Io
1
corenlp中的词性标注缩写含义使用的是Penn Treebank tag set,这是全部对应缩写的含义,这份资源下载自https://www.eecis.udel.edu/~vijay/cis889/ie/pos-set.pdf
2021-08-14 00:42:21 55KB nlp pos tag 词性标注标签含义
1
资源为1998年人民日报1-6月份带词性标注的语料库中的1998年3月份的语料,其他月份的语料可以到我的主页下载,亦可私信我获取。
2021-08-10 15:32:53 11.35MB 人民日报 词性标注 语料库 nlp
1
hanlp分词各类词性状态表: 比如: a 形容词 ad 副形词 b 区别词 n 名词 h 前缀 i 成语 j 简称略语 k 后缀 l 习用语 m 数词 mg 数语素 Mg 甲乙丙丁之类的数词 mq 数量词
2021-08-10 12:32:08 3KB hanlp 汉普 分词 nlp
1
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集: 1. 北大《人民日报》语料库词性标记集; 2. 北大2002新版词性标记集(草稿); 3. 清华大学汉语树库词性标记集; 4. 教育部语用所词性标记集(国家推荐标准草案2002版); 5. 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
2021-07-28 14:35:03 61KB 词性 分词
1
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
2021-07-08 15:02:47 6MB 分词 去除停用词 word2vec TF-IDF