数据分为三大部分,即训练集、验证集、测试集。数据分为两种颗粒度,一种是句子级别的关系和包(若干个句子)级别的关系。以及用于训练词向量和语言模型的大规模无标注语料。
2023-04-23 12:40:17 515.63MB 人物关系抽取
目前基于深度学习的人物关系抽取方法中大都使用单一的CNN或RNN模型,CNN擅长提取局部的最重要特征,但是不适合处理序列输入,而RNN虽然在任意长度的序列化任务中具有很大的优势,但是对局部的重要特征提取不够充分,针对以上问题,提出一种基于双向GRU和PCNN的人物关系抽取方法。将双向GRU模型与PCNN模型的优点结合起来,同时在模型中加入注意力机制。利用远程监督的方法构建训练语料进行实验验证,结果表明,该方法相较于单一的双向GRU模型、PCNN模型具有更好的效果。
1
运行该项目的模型训练和模型预测脚本需要准备BERT中文版的模型数据,下载网址为: 。   利用笔者自己收集的3881个样本,对人物关系抽取进行尝试。人物关系共分为14类,如下: { "unknown": 0, "夫妻": 1, "父母": 2, "兄弟姐妹": 3, "上下级": 4, "师生": 5, "好友": 6, "同学": 7, "合作": 8, "同人": 9, "情侣": 10, "祖孙": 11, "同门": 12, "亲戚": 13 }   人物关系类别频数分布条形图如下:   模型结构: BERT + 双向GRU + Attention + FC   模型训练效果: # 训练集(train), loss: 0.0260, acc: 0.9941 # 最终测试集(test), loss: 0.9505, acc:
2021-09-03 20:56:57 690KB Python
1
以釜山行里面的人物关系为实例,为大家介绍一下人物关系抽取怎么做。里面包含代码和数据,亲测可用!
2021-06-15 15:37:57 19KB 人物关系抽取 深度学习
1
ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用。
2021-05-10 22:27:02 2.61MB 关系抽取
1