随着医疗信息化的发展,医院产生了大量的医疗数据信息,积累了庞大的医疗电子病历数据。电子病历(EMR)是具有非结构化句子和多种概念表达,为医学信息提取提供了丰富的信息。然而,庞大的数据信息严重影响处理效率,因此提取电子病历中的命名实体成为研究的热点问题。为提高医院对复杂数据的处理效率,减轻工作人员的压力,本文提出了一种基于条件随机场(CRF)模型和特征模板结合的算法,来识别中文电子病历中的命名实体单元,识别准确率可以达到92.9%,可以有效地识别电子病历命名实体。基于本文采用的方法可以来结构化电子病历,减轻医生负担,推动医疗领域的发展。
2021-05-20 15:39:27 14.32MB 机器学习 CRF 电子病历
1
一个非常简单的 BiLSTM-CRF 模型用于中文命名实体识别 (TensorFlow)
2021-05-13 16:49:20 40.13MB Python开发-机器学习
1
知识工程,命名实体识别,识别地名,one-hot实现
2021-05-11 20:04:52 6.24MB one-hot 知识工程 命名实体识别 python
1
实习对命名实体的中文分词 词性标注等 全监督机器学习、半监督机器学习及无监督机器学习
2021-05-11 06:28:17 36.1MB 命名实体识别
1
基于法律裁判文书的事件撤除及其应用 简介 针对交通肇事案件的裁判文书进行事件要素移除,并在此基础上加入决策结果预测,案件相似度匹配等应用场景。 数据来源: 分词:基于pkuseg 词性标注:基于哈工大LTP / pkuseg 命名实体识别:基于BiLSTM-CRF 应用部分:包括判决结果的预测,案件相似度的比较等
2021-04-29 17:26:26 124.77MB nlp deep-learning word2vec event-extraction
1
OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
1
花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
1
用于中文命名实体识别的简单BiLSTM-CRF模型 该存储库包含用于为中文命名实体识别任务构建非常简单的基于字符的BiLSTM-CRF序列标签模型的代码。 其目标是识别三种类型的命名实体:PERSON,LOCATION和ORGANIZATION。 这段代码可在Python 3和TensorFlow 1.2上运行,以下存储库给了我很多帮助。 模型 此模型类似于论文[1]和[2]提供的模型。 其结构如下图所示: 对于一个中文句子,该句子中的每个字符都有/将具有属于{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}集的标记。 第一层是查找层,旨在将每个字符表示从一个
1
kaggle 数据集 命名实体识别 范强下载的 Abhinav Walia • updated 3 years ago (Version 4) Annotated Corpus for Named Entity Recognition using GMB(Groningen Meaning Bank) corpus for entity classification with enhanced and popular features by Natural Language Processing applied to the data set.
2021-04-23 17:20:16 26.42MB 数据集 命名实体识别 深度学习 nlp
1
基于深度学习的中文命名实体识别研究,介绍了几种识别方法
2021-04-23 13:32:37 1.81MB 命名实体识别
1