1.2 命名实体识别的研究现状 近年来,命名实体识别的研究逐步升温,国内外的很多会议都关注命名实体 识别的研究。 (1)MUC MUC(Message Understanding conference)曾推动了上个世纪的自然语言处理的 蓬勃发展。1995 年 9 月举行的 MUC-6 会议首次出现了术语“命名实体”,并引入 了英文命名实体识别的评测任务。在其后的一系列关于自然语言处理的会议中都 有对命名实体识别的研究。 (2)ACE[4] 2000 年 12 月由美国国家标准技术研究所组织的自动内容抽取(Automatic Content Extraction,ACE)评测会议将实体识别作为它评测的两大任务之一。命名实 体可以看作是 ACE 识别的实体的子集。ACE 识别的实体更像是名词短语,可以嵌 套,类别也更多,同时还需要确定实体间的共指关系,因此难度较大。 (3)863 评测[5] 国家 863 命名实体识别评测小组在 2004 年度命名实体识别评测大纲中,描述 了对命名实体主要任务的定义:“命名实体任务由三个子任务组成(命名实体、时 间表达式、数字表达式)。被标注的表达式为命名实体(组织、人、地点)、时间(日 期、时间)及数量。” 目前,英文命名实体识别方面人们已经展开了大量的研究工作并取得了较满 意的效果。在 MUC-6 评测中,Bikel D 等提出的基于隐马尔科夫夫模型的英文命
2022-01-27 16:23:22 859KB 命名实体识别
1
Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务:1)医疗命名实体识别;2)医疗实体及属性抽取(跨院迁移)。
1
命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
2022-01-21 16:51:36 859KB 命名实体识别
1
bilstmcrf.zip
2022-01-16 12:05:33 11KB bilstm-crf 命名实体识别
1
自己给自己博客用的命名实体实体识别的数据
2022-01-04 13:53:12 14.5MB 命名实体识别
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1
微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
1
政治网络 斯洛文尼亚政治数据的命名实体识别项目。 安装开发 # Python 2.7.6 mkvirtualenv --no-site-packages politiki workon politiki pip install --upgrade -r requirements.txt 使用的库和工具 准备和抓取数据 手动抓取每个门户或运行“./bin/small_crawl.sh”脚本 scrapy crawl delo -o data/urls/delo.csv -t csv -O --nolog 将 URL 列表合并为一个巨大的列表。 cat data/urls/*.csv | cut -d ',' -f1 | grep -v -e "url" | uniq -u > data/lists/big.txt 使用 Aria2 下载所有内容以供离线处理 aria2c --con
2021-12-17 22:38:57 9KB Python
1
恶毒的 基于实体级别F1分数的命名实体识别(NER)系统的评估脚本。 定义 Nadeau和Sekine(2007)已描述了此处实施的度量标准,该度量标准已广泛用作“消息理解会议”的一部分(Grishman和Sundheim,1996)。 它根据两个轴评估NER系统:是否能够为实体分配正确的类型,以及是否找到确切的实体边界。 对于两个轴,都计算正确的预测数(COR),实际的预测数(ACT)和可能的预测数(POS)。 从这些统计数据中,可以得出准确性和召回率: precision = COR/ACT recall = COR/POS 最终得分是对类型和边界轴的精度和召回率进行微平均的F1度量。 安装 pip install nereval 用法 当分类结果已写入JSON文件时,可以从Python内部使用此脚本,也可以从命令行使用该脚本。 从命令行使用 假设我们在input.json具有以下
1
最大熵NER标记器 可在线获得。 概述 该项目的目标是实施和培训 。 大多数功能构建器功能都是使用实现的, 是用Python / Cython编写的具有工业实力的开源NLP库。 为了分类,使用最大熵(MaxEnt)分类器。 实施细节 此任务的数据集是语料库,该语料库主要由路透社新闻数据组成。 数据文件已经过预处理,并且每行已经包含一个令牌,其词性(POS)标签,BIO(开始,内部,外部缩写)组块标签以及相应的NER标签。 事实证明,SpaCy的内置对功能工程最为有用。 利用外部单词列表,例如作为一部分分发的Wikipedia地名词典,通常会导致标记准确性下降。 由于数据文件相对较大,因此最终提交中不包含地名词典的源代码和文件。 我还通过将先前的状态/标记作为功能进行了尝试,以提高模型的性能。 出乎意料的是,模型性能在很大程度上保持不变,这大概是由于每个标签都是从仍然在模型中编码的同一特征
2021-12-11 10:28:15 36.57MB classifier clustering spacy maxent
1