修剪后的依赖树上的图卷积用于关系提取 此回购包含PyTorch代码,用于修剪。 本文/代码在修剪的依赖树上引入了图卷积神经网络(GCN),用于关系提取的任务。 还引入了一种特殊的树修剪技术,称为“以路径为中心的修剪”,以从树中消除不相关的信息,同时最大程度地维护相关信息。 与诸如各种基于LSTM的模型之类的序列模型相比,此GCN模型利用依赖结构桥接远程单词,因此提高了远程关系的性能。 与以前的递归模型(如TreeLSTM)相比,此GCN模型在获得更好的性能的同时,也更早地实现了并行化,因此效率更高。 参见下面的模型架构概述: 要求 Python 3(在3.6.5上测试) PyTorch(
1
关系提取中的位置感知注意力RNN模型 此存储库包含PyTorch代码,用于纸上的。 TACRED数据集:有关TAC关系提取数据集的详细信息可以在上找到。 要求 Python 3(在3.6.2上测试) PyTorch(在1.0.0上测试) 解压缩,wget(仅用于下载) 制备 首先,从斯坦福大学网站下载和解压缩GloVe载体,方法如下: chmod +x download.sh; ./download.sh 然后使用以下方法准备词汇和初始单词向量: python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir data
1
一种用于关系三重提取的级联二进制标记框架 该存储库包含该论文的源代码和数据集:一种用于关系三重提取的新颖级联二进制标记框架。,,,袁田,。 ACL2020。 概述 提出的CasRel框架的核心是全新的观点,即我们将关系建模为将主体映射到对象的函数,而不是将关系视为实体对上的离散标签。更确切地说,我们不是学习关系分类器f(s,o)-> r,而是学习特定于关系的标记f_ {r}(s)-> o,每个标记都可以识别给定主题下的可能对象。一个特定的关系。在这种框架下,关系三重提取是一个分为两个步骤的过程:首先,我们确定句子中所有可能的主语;然后针对每个主题,我们应用特定于关系的标记器来同时识别所有可能的关系和相应的对象。 要求 此仓库已在Python 3.7和Keras 2.2.4上进行了测试。主要要求是: tqdm 编解码器 凯拉斯伯特= 0.80.0 tensorflow-gpu = 1.
1
雪球:从大型纯文本集合中提取关系 这是我自己的Snowball系统的实现,用于引导关系实例。 您可以在此处找到更多详细信息: Eugene Agichtein和Luis Gravano,《 。 在第五届ACM数字图书馆会议论文集中。 ACM,200。 H Yu,E Agichtein, 。 于生物信息学,19(增刊1),2003年-牛津大学出版社 可以包含已标记命名实体的句子的样本文件,该文件具有100万个句子,摘自English Gigaword Collection中的《纽约时报》文章。 注意:查看以了解如何提供带标签的文档集合和种子以使用Snowball设置关系实例的自举,这两个系
1
OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
1
排名:6 队名:爆写规则一万行 成员: , , 环境环境 Ubuntu 18.04 的Python:3.6.5 火炬:1.1.0 CUDA:9.0 CUDNN:7.1.3 所需的包 我们将软件包用于主干BERT模型。 (请注意,原始在比赛期间已更新为 ,但出于稳定性考虑,我们选择使用旧版本。) 所需的Python软件包: fuzzywuzzy==0.17.0 numpy==1.17.0 torch==1.1.0 pytorch-pretrained-bert==0.6.2 tqdm==4.24.0 records 安装所需的python软件包的命令: pip install
1
信息提取中文 中文信息提取(包括命名实体识别,关系提取等)专注于最新的深度学习方法。 为了清楚起见,该项目有几个子任务,分别带有详细的README.md。 文件夹RE_BGRU_2ATT /中的详细信息 文件夹NER_IDCNN_CRF /中的详细信息 详情 参考
1