中文NER
本项目使用
python 2.7
张量流1.7.0
火炬0.4.0
对命名实体识别不了解的可以先看一下这篇。顺便求star〜
这是最简单的一个命名实体识别BiLSTM + CRF模型。
数据
数据文件夹中有三个开源数据集可以使用,玻森数据( ),1998年人民日报标注数据,MSRA微软亚洲研究院开源数据。其中,boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名,地名,组织名三种实体类型。
先运行数据中的python文件处理数据,供模型使用。
张量流版
开始训练
使用python train.py开始训练,训练的模型会存到模型文件夹中。
使用预训练的词向量
使
1