参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享 赛题要求从pdf简历中提取出信息,可能会让人觉得,籍贯等。这里搭建了一个BiLSTM-CRF模型,从PDF简历中提取出想要的信息。 模型的线上得分是0.727,排名 21/1200+
2021-07-04 17:03:33 50.71MB BiLSTM-CRF 天池
自然语言处理作业 ,实现序列标注、人名地名机构名的命名实体识别 Bi-LSTM+CRF条件随机场 pytorch实现 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数
2021-06-21 14:49:02 10.33MB pytorch nlp 序列标注 BiLSTM
1
中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜 这是最简单的一个命名实体识别BiLSTM + CRF模型。 数据 数据文件夹中有三个开源数据集可以使用,玻森数据( ),1998年人民日报标注数据,MSRA微软亚洲研究院开源数据。其中,boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名,地名,组织名三种实体类型。 先运行数据中的python文件处理数据,供模型使用。 张量流版 开始训练 使用python train.py开始训练,训练的模型会存到模型文件夹中。 使用预训练的词向量 使
2021-06-05 23:17:56 13.53MB tensorflow pytorch named-entity-recognition chinese
1
使用BiLSTM-CRF模型的NER任务的PyTorch解决方案。 此存储库包含BiLSTM-CRF模型的PyTorch实现,用于命名实体识别任务。 代码结构 在项目的根目录,您将看到: ├── pyner | └── callback | | └── lrscheduler.py   | | └── trainingmonitor.py  | | └── ... | └── config | | └── basic_config.py #a configuration file for storing model parameters | └── dataset
2021-06-02 21:29:45 155KB nlp crf pytorch lstm
1
TensorFlow版本:1.9.0 Keras版本:2.0.2 我的博客: :
2021-05-28 20:37:48 498KB 附件源码 文章源码
1
ChineseNRE 本项目使用 python 2.7 pytorch 0.4.0 中文实体关系抽取,对实体关系抽取不了解的可以先看。顺便求star~ 数据 中文实体关系抽取数据实在太难找了,data中是忘记在哪里找的人物关系数据集,一共11+1种关系,数据质量不太好,但也找不到其他的了。 (更新)中 ybNero 同学分享了一份数据集,大家可以去issues中查看~ 梅葆玥 梅兰芳 父母 坎坷经历梅葆玥之家庭合影1961年,梅兰芳先生病逝,葆玥、葆玖姐弟俩继承父亲的遗志,挑起了梅剧团的重担 数据格式为: 实体1 实体2 关系 句子。 虽然叫中文实体关系抽取,还是增加了一个英文数据集SemEval2010_task8,简单做了下数据处理,这是免费的公开数据集,其他的好像都要dollar了。。 训练 模型使用的是lstm+attention模型。特征使用词向量+位置向量。 训练前先运行dat
2021-05-19 16:14:00 23.37MB pytorch chinese attention relation-extraction
1
命名实体识别代码,解压即可用 # BERT-BiLSTM-CRF BERT-BiLSTM-CRF的Keras版实现 ## BERT配置 1. 首先需要下载Pre-trained的BERT模型,本文用的是Google开源的中文BERT模型: - https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip 2. 安装BERT客户端和服务器 pip install bert-serving-server pip install bert-serving-client,源项目如下: - https://github.com/hanxiao/bert-as-service 3. 打开服务器,在BERT根目录下,打开终端,输入命令: - bert-serving-start -pooling_strategy NONE -max_seq_len 144 -mask_cls_sep -model_dir chinese_L-12_H-768_A-12/ -num_worker 1
2021-05-10 11:42:36 883KB 文本分类
1
中文分词 本项目为中文分词任务baseline的代码实现,模型包括 BiLSTM-CRF 基于BERT的+ X(softmax / CRF / BiLSTM + CRF) 罗伯塔+ X(softmax / CRF / BiLSTM + CRF) 本项目是的项目。 数据集 数据集第二届中文分词任务中的北京大学数据集。 模型 本项目实现了中文分词任务的baseline模型,对应路径分别为: BiLSTM-CRF BERT-Softmax BERT-CRF BERT-LSTM-CRF 其中,根据使用的预训练模型的不同,BERT-base-X模型可转换为Roberta-X模型。 要求 此仓库已在Python 3.6+和PyTorch 1.5.1上进行了测试。 主要要求是: tqdm scikit学习 火炬> = 1.5.1 :hugging_face: 变压器== 2.2.2 要解决环境问题,请运行:
1
概述 上一篇中使用BiLSTM-Attention模型进行关系抽取,因为只放出了较为核心的代码,所以看上去比较混乱。这篇以简单的文本分类为demo,基于pytorch,全面解读BiLSTM-Attention。 文本分类实战 整体构建 首先,我们导入需要的包,包括模型,优化器,梯度求导等,将数据类型全部转化成tensor类型 import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch.autograd import Variable import torch.nn.fu
2021-05-07 11:19:49 202KB io te ten
1
用于中文命名实体识别的简单BiLSTM-CRF模型 该存储库包含用于为中文命名实体识别任务构建非常简单的基于字符的BiLSTM-CRF序列标签模型的代码。 其目标是识别三种类型的命名实体:PERSON,LOCATION和ORGANIZATION。 这段代码可在Python 3和TensorFlow 1.2上运行,以下存储库给了我很多帮助。 模型 此模型类似于论文[1]和[2]提供的模型。 其结构如下图所示: 对于一个中文句子,该句子中的每个字符都有/将具有属于{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}集的标记。 第一层是查找层,旨在将每个字符表示从一个
1