# 中文命名实体识别 基于条件随机场(Conditional Random Field, CRF)的NER模型 ## 数据集 数据集用的是论文ACL 2018[Chinese NER using Lattice LSTM](https://github.com/jiesutd/LatticeLSTM)中收集的简历数据,数据的格式如下,它的每一行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行隔开。 ``` 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O ``` 该数据集就位于项目目录下的`data`文件夹里。 ## 运行结果 具体的输出可以查看`output.txt`文件。 ## 环境 首先安装依赖项: pip3 install -r requirement.txt 安装完毕之后,直接使用 python3 main.py > output.txt 即可训练、评估以及测试模型,评估模型将会打印出模型的精确率、召回率、F1分数值以及混淆矩阵。
2021-06-06 16:32:00 609KB NER NLP CRF
1
主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据样本(一般醒目,出院情况,病史情况,病史特点,诊疗经过)与转换版本,训练脚本,预训练模型,可用于序列标注研究.把玩和PK使用
2021-06-06 13:02:47 37.02MB Python CCKS2017 LSTM CRF
中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜 这是最简单的一个命名实体识别BiLSTM + CRF模型。 数据 数据文件夹中有三个开源数据集可以使用,玻森数据( ),1998年人民日报标注数据,MSRA微软亚洲研究院开源数据。其中,boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名,地名,组织名三种实体类型。 先运行数据中的python文件处理数据,供模型使用。 张量流版 开始训练 使用python train.py开始训练,训练的模型会存到模型文件夹中。 使用预训练的词向量 使
2021-06-05 23:17:56 13.53MB tensorflow pytorch named-entity-recognition chinese
1
使用BiLSTM-CRF模型的NER任务的PyTorch解决方案。 此存储库包含BiLSTM-CRF模型的PyTorch实现,用于命名实体识别任务。 代码结构 在项目的根目录,您将看到: ├── pyner | └── callback | | └── lrscheduler.py   | | └── trainingmonitor.py  | | └── ... | └── config | | └── basic_config.py #a configuration file for storing model parameters | └── dataset
2021-06-02 21:29:45 155KB nlp crf pytorch lstm
1
使用双隐层LSTM模型(DHLSTM)和双向LSTM(Bi-LSTM)模型两种方法,实现MNIST数据集分类
2021-06-01 11:08:53 11.06MB DHLSTM Bi-LSTM LSTM MNIST
1
对应github:https://github.com/YWP-2019/ALBERT-CRF-for-name-quantity-and-geographic-entity-extraction
2021-05-31 19:07:05 423.76MB NLP NER
1
对应github:https://github.com/YWP-2019/ALBERT-CRF-for-name-quantity-and-geographic-entity-extraction
2021-05-31 14:06:25 59.2MB NLP NER
1
我搜集的基本上最全的关于CRF的资料,基本可以满足各位的需求了。
2021-05-30 00:46:33 4.49MB CRF 条件随机域 论文 教程
1
CRF++-0.58.tar.gz CRF++-0.58.tar.gz CRF++-0.58.tar.gz CRF++-0.58.tar.gz
2021-05-21 12:03:14 773KB CRF
1
随着医疗信息化的发展,医院产生了大量的医疗数据信息,积累了庞大的医疗电子病历数据。电子病历(EMR)是具有非结构化句子和多种概念表达,为医学信息提取提供了丰富的信息。然而,庞大的数据信息严重影响处理效率,因此提取电子病历中的命名实体成为研究的热点问题。为提高医院对复杂数据的处理效率,减轻工作人员的压力,本文提出了一种基于条件随机场(CRF)模型和特征模板结合的算法,来识别中文电子病历中的命名实体单元,识别准确率可以达到92.9%,可以有效地识别电子病历命名实体。基于本文采用的方法可以来结构化电子病历,减轻医生负担,推动医疗领域的发展。
2021-05-20 15:39:27 14.32MB 机器学习 CRF 电子病历
1