Chinese NER Project 本项目为CLUENER2020任务baseline的代码实现,模型包括 BiLSTM-CRF BERT-base + X (softmax/CRF/BiLSTM+CRF) Roberta + X (softmax/CRF/BiLSTM+CRF) 本项目BERT-base-X部分的代码编写思路参考 。 项目说明参考知乎文章: Dataset 实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。 CLUENER2020共有10个
2021-11-29 23:16:05 12.45MB pytorch named-entity-recognition ner bert
1
国科大自然语言处理第三次作业
2021-11-29 17:05:46 181.53MB TensorFlow nlp 命名实体识别
1
本文是BERT实战的第二篇,使用BERT进行命名实体识别(序列标注类任务)。 1. 准备 1.1 环境 python 3.7; pytorch 1.3; transformers 2.3 (安装教程); 1.2 数据 数据链接(链接:https://pan.baidu.com/s/1spwmV3_07U0HA9mlde2wMg 提取码:reic); 2. 实战 2.1 训练代码 lr = 5e-5 max_length = 256 batch_size = 8 epoches = 20 cuda = True # cuda = False max_grad_norm = 1 warmup_s
2021-11-26 15:53:50 34KB eval ids token
1
CLUENER细粒度命名实体识别 更多细节请参考我们的: : 数据类别: 数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene) 标签类别定义和注释规则: 地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。 书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。 公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。 游戏(game): 常见的游戏,注意
2021-11-24 18:05:14 529KB dataset named-entity-recognition chinese seq2seq
1
条件随机场的识别命名实体 有程序和详细介绍 自然语言处理
2021-11-22 14:54:06 4.53MB 条件随机场 别命名实体识别 分词
1
条件随机场识别命名实体实验材料、过程及报告
2021-11-22 14:28:06 4.55MB 命名实体 识别 NER
1
KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为在线和大纲模式 介绍 本项目主要由两个重要的点组成,一是基于BERT的命名实体识别,二是基于BERT的句子相似度计算,本项目将这两个模块进行融合,并基于BERT的KBQA问答系统,在命名实体识别上分为在线预测和轮廓预测;在句子相似度上,也分为在线预测和轮廓预测,2个模块互不干扰,做到了高内聚低掺杂的效果,最后的kbqa相当于融合这2个模块进行概述,具体介绍请见! ------------------------------------------- 2019/6/15更新- --------------------------------------- 把过去毕业生同学们遇到的主要问题汇总一下,下面是一些FAQ: 问:运行run_ner.py时未找到dev.txt,请问这个文件是怎么生成的呢? 答:这一部
2021-11-16 19:41:51 1.51MB 系统开源
1
你好 :grinning_face: 内尔 使用NLTK和Spacy的NLP命名实体识别 def ner ( text ) docx = nlp ( text ) html = displacy . render ( docx , style = "ent" ) html = html . replace ("\n\ n ","\n") result = HTML_WRAPPER . format ( html )
2021-11-13 19:31:57 3KB HTML
1
中文命名实体识别 数据集 本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O 该数据集就位于项目目录下的ResumeNER文件夹里。 运行结果 下面是多种不同的模型以及这Ensemble这四个模型预测结果的准确率(取最好): HMM 慢性肾功能衰竭 双线性STM BiLSTM + CRF 合奏 召回率 91.22% 95.43% 95.32% 95.72% 95.65% 准确率 91.49% 95.43% 95.37% 95.74% 95.69% F1分数 91.30% 95.42% 95.32% 95.70% 95.64% 最后一列Ensemble是将这四个模型的预测结果结合起来,使用“
2021-11-13 17:18:20 24.44MB nlp hmm crf named-entity-recognition
1
命名实体识别是自然语言处理的一项关键技术. 基于深度学习的方法已被广泛应用到中文实体识别研究中. 大多数深度学习模型的预处理主要注重词和字符的特征抽取, 却忽略词上下文的语义信息, 使其无法表征一词多义, 因而实体识别性能有待进一步提高. 为解决该问题, 本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法. 首先通过BERT模型预处理生成基于上下文信息的词向量, 其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理. 实验结果表明, 该模型在MSRA语料和人民日报语料库上都达到相当不错的结果, F1值分别为94.65%和95.67%.
1