论文笔记 | GraphRel：用于文本中的实体与关系联合抽取的

作者: 鲜芋牛奶西米爱solo | 来源:发表于2019-10-31 22:52 被阅读0次

论文笔记 | GraphRel：用于文本中的实体与关系联合抽取的
【论文笔记】GraphRel：将文本建模为关系图用于关系抽取
知识图谱学习笔记（五）——实体识别（1）
实体关系抽取
第四讲知识抽取与挖掘II
CoType: Joint Extraction of Type
关系抽取泛读系列（一）—— CopyMTL: Copy Mech
实体和关系联合抽取
2 关系提取技术
基于深度学习的实体和关系联合抽取模型研究与应用（二、相关理论技术

本文主要复述论文["GraphRel: ModelingTextasRelationalGraphsforJointEntityand RelationExtraction"] 的内容，以便自我回顾，也希望可以给大噶带来帮助~

摘要

这篇论文的目的是使用一个端到端的关系抽取模型，来实现命名实体与关系的联合信息抽取。使用图卷积神经网络（GCN），构建一个线性从属结构的模型来提取文本中的顺序特征与区域特征，并进一步地使用一个完整字词图谱抽取文本中的隐性词对的特征。作者还重点介绍了词对重叠关系的改进。数据集选择的是NYT和WebNLG，实体与关系抽取模型的F1值分别提高了3.2%和5.8%。

介绍

实体的语义关系这里也选择的是三元组来表示，比如 (Barack Obama, President Of, United States)。这个任务的处理过程有三个关键点需要注意：

端到端的实体识别与关系抽取模型；
重叠关系的预测，比如共享同一实体识别的三元组；
关系之间的相互作用，尤其是重叠关系。

关系抽取任务中的关系之间相互作用对重叠关系的处理很重要，比如三元组 (Barack Obama, President Of, United States)与(Barack Obama, Governance, United States)这两组的关系共享实体，另一范例比如三元组(Barack Obama, LiveIn, White House) 与 (White House, Presidential Palace, United States)属于单一实体重叠。
GraphRel模型结合了Bi-LSTMs的序列编码与GCN的依赖树编码，实现自动提取每个词的隐性特征。模型中设计了两个阶段具有关系权重矩阵的GCN，第一阶段会沿节点之间的依赖关系链接提取特征，同时建立具有关系加权边的新全连接图。第二阶段会在第一阶段生成图的基础上考虑实体之间或者重叠关系之间的相互作用。这两个阶段都会生成相应任务的损失值。

方法

整个模型的结构图见Figure2。第一阶段应用Bi-LSTM于GCN抽取序列性、区域性的词特征，特征输出时对每个词预测三元组类型与实体类别。第二阶段会对每个关系建立完整的关系图，对这些关系图使用GCN来提取关系信息。

1st-phase Prediction

在Bi-LSTM网络中迭代之前，每个词的初始特征被初始化为 $h^0(u)=Word(u)⊕Pos(u)$ ，其中 $u$ 为单个词，这里的词特征以及POS特征是由Glove embedding预训练得到的。
先对序列式的原始输入进行依赖关系解析，生成相应的依赖树作为图网络输入节点的邻接矩阵，这里的图网络考虑连接边的方向性，因此作者总结了双向图网络（Bi-GCN）。 $h^l(u)$ 表示第 $l$ 层节点 $u$ 的特征向量，箭头表示每个节点上的边出入方向， $w,b$ 表示卷及网络的权重。