美文网首页
Cross-Sentence N -ary Relation E

Cross-Sentence N -ary Relation E

作者: __子不语__ | 来源:发表于2018-03-13 16:23 被阅读129次

    标签: paper LSTM


    摘要

    之前的工作在相关抽取主要关注二分类相关性在一个句子中。最近NLP进展在高值域有很大兴趣在更多一般设置抽取n-ary相关性在扩展多句子。在这个paper,我们探索一个一般相关抽取记忆网络(graph LSTMs)可以简单的扩展cross-sentence n-ary关系抽取。这个graph公式提供一个统一方法探索不同LSTM方法并合并不同intra-sentential and inter-sentential依赖,例如序列同步和论述关系。一个鲁棒的内容表示被学习到实体,作为输入到关系分类器。这个简化处理关系伴随随机数量,可以多重任务学习伴随相关关系。我们评估这个框架在两个重要的精准医学设置,表明它的效率伴随传统监督学习和远方监督。Cross-sentence抽取产生更大知识基础和多任务学习重大的改进抽取准确率。一个彻底分析各种LSTM方法产生有用洞悉语言分析在抽取准确率的影响。

    1 介绍

    相关抽取已有很大步在新闻专线和网络领域。最近,有增进的兴趣在应用相关抽取在高值领域例如生物医学。价值1000美元的人类基因发布精准医学的黎明的出现,但是个性化癌症治疗的进展已经妨碍通过繁杂任务在解释基因数据用在先知知识。例如,给出一个瘤序列,一个分子肿瘤模板需要决定哪个基因和转换是重要的,什么药是可用的在治疗它们。已经这个研究文学有一个富有的相关知识,并生长在一个极大的速率。PubMed,在线生物医学文章信息库,加上两个新paper每分钟,或者一百万每年。因此迫切的去增进相关抽取对于机器阅读。

    在大量文学在相关抽取,之前的工作关注于只要在二元相关在一个句子,限制信息可用性。考虑下列例子:“The deletion mutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21 was noted in 10. All patients were treated with gefitinib and showed a partial response.”。集体的,这两个句子传达了这里有三元交互在三个实体用黑体,不是在每个句子单独表达的。也就是,肿瘤伴随L858E变异在EGFR基因中可以被gefitinib治疗。抽取这些知识显然需要转移超过二元关系和单个句子。

    N-ary关系和cross-sentence抽取收到了相当小的关注在之前。之前的工作在n-ary关系抽取关注在单个句子或者实体中心的贡献可被抽取大量依赖的。先前的工作在cross-sentence抽取经常使用coreference去获得参数在不同句子不带真实模型inter-sentence关系模式。一个值得注意的是应用远方监督到cross-sentence关系抽取,但是限制到二元关系。

    在这个paper,我们探索一个一般框架对于交叉句子n元关系抽取,基于graphLSTMs。通过采用graph公式,我们的框架归入先前方法基于链或树LSTMs,可以合作一个重组的语言分析集去帮助关系抽取。关系分类输入实体表示学习于整个文本,可以简单的扩展用于随机关系数量n。这个方法还促进加入学习伴随相似关系其中监督信号更充足。

    我们执行扩展实验在两个重要领域在精准医学。同时在弱监督和监督学习设置,graph LSTMs编码富语言知识好于其他神经网络变量,也是一个设计好的基于特征的分类器。多任务学习伴随副关系导向更远改进。句法分析授予一个重大的利益到graph LSTMs的表现,特别是当句法准确性很高时。

    在分子肿瘤版领域,PubMedscale抽取使用弱监督从一个小的已知的交互产生的巨大更多知识序列集,和cross-sentence抽取三倍这个结果对比到单个句子抽取。人工评估证实准确性是高的尽管缺乏样例标注。

    2 交叉句子n元关系抽取

    使$e_1,···,e_m$是实体标记在文本$T$。关系抽取可以构想为分类问题决定是否一个关系$R$持有$e_1,···,e_m$在$T$。例如,给出一个肿瘤病人伴随变异$v$在基因$g$,一个分子肿瘤板发现是否这个种类的肿瘤可以对药$d$反映。文学伴随这种知识已经增长迅速;我们可以帮助肿瘤板通过检查是否反映关系持有$(d,g,v)$三元。

    传统关系抽取方法关注二元关系其中所有试题出现在相同句子(也就是$m=2$且$T$是一个句子),且不可以解决上述的 三元关系。更多的,正如我们关注的更复杂的关系和n增长,它变得渐渐稀有在关系实体将会被包括整个的在一个句子中。在这篇paper,我们一般化抽取到交叉句子,n元关系,其中$m>2$且$T$可以包括多重句子。正如将被展示在我们的实验部分,n元关系是关键的对于高价值领域例如生物医学,和扩展于句子便捷使得抽取更多知识。

    在二元关系设置的标准,主导方法是一般定义依据最短依赖路径在两个问题实体之间,要么通过源于富特征来自路径或者通过建模它使用深度神经网络。

    更多的,词汇和句法模式放大关系将会匮乏。解决匮乏性,传统基于特征的方法需要扩展工程和大量数据。不幸的是,这个挑战变得更严重在交叉句子抽取当文本跨越多重句子。

    为了克服这个挑战,我们探索一个一般关系抽取框架基于graph LSTMs。通过学习一个连续表示用于词和实体,LSTMs可以解决亏发行有效的不带需求强烈的特征工程。这个graph构想归入先验LSTM方法基于链或树,可以合并富语言分析。

    这个方法还可以有机会共同学习伴随相关关系。例如,Response关系基于$d,g,v$还暗示一个二元副关系在药$d$和变异$v$,伴随基因指定。甚至伴随弱监督,监督信号对于n元关系将会很可能更稀少相比它们的二元副关系。我们的方法使得它非常容易的使用多任务学习对于n原关系和它们的副关系。

    3 Graph LSTMs

    学习一个连续表示可以有效的解决词汇和句法稀少。对于序列数据例如文本,循环神经网络RNNs是相当流行。它们类似隐藏马尔科夫模型HMMs,除了分离隐藏状态被替代为连续向量,排放物和转换概率伴随神经网络。常规RNNs伴随sigmoid单元经历梯度扩散或者爆炸,使得训练非常难。LSTMs对付这些问题通过使用一系列门去避免放大或者阻止梯度在反向传播时。因此,LSTMs更有效在捕获长距离依赖,且已经被采用到这种NLP任务。然而,大多方法是基于线性链且仅仅明确的模型这个线性文本,从而忽略一些列语言分析,例如语义和辩论依赖。

    在这个部分,我们提出一个一般框架一般货LSTMs到graph。同时这里有一些先验工作在学习树LSTMs,to the best of our knowledge,graph LSTMs还没有被用到任何NLP任务。Figure 2显示了这个方法的结构。输入层是输入文本的词embedding。下一个graph LSTM学习一个上下文表示对于每个词。对于问题中的实体,它们的上下文表示是联结的且变得输入到关系分类器。对于一个多词实体,我们简单使用它的词表示的平均并使得探索更多复杂的聚集方法作为未来工作。这个层被训练共同的伴随反向传播。这个框架是不可知论的分类器的选择。共同的设计分类器伴随graph LSTMs将会利于将来工作。

    在graph LSTM的核实一个文档graph捕获各种依赖在输入词中间。通过选择依赖去包括这个文档graph,graph LSTMs自然地归入线性链或树LSTMs。

    对比传统LSTMs,graph变异呈现新的挑战。由于潜在循环在graph中,一个简单的反向传播设置可能需要许多迭代去达到固定点。更多的,在潜在的大量边缘种类(邻近词,句法依赖等等)的数量的呈现,参数化变成一个关键问题。

    在这个部分的剩余,我们首先介绍文档graph且展示如何执行反向传播在graph LSTMs。我们之后讨论两个策略用于参数化循环单元。最后,我们展示如何执行多任务学习伴随这个框架。

    3.1 文档graph

    去建模各种依赖从语言分析在我们的处理中,我们跟随Quirk and Poon (2017)且介绍一个文档graph去捕获intra- and inter-sentential依赖。一个文档graph包括节点辨识词和边表示各种依赖例如线性上下文(邻近词),句法依赖,和语篇关系。Figure 1显示文档graph对于我们的训练样例,这个实例显示肿瘤伴随L858E变异在EGFR基因反应到这个药gefitinib。

    这个文档graph表现为基于graph LSTM的支柱被构造。如果它包含仅仅边在邻近词之间,我们恢复线性链LSTMs。简单的,其他先验LSTM方法可以捕获在这个框架通过约束边对那些最短依赖路径或者句法分析树。

    3.2 反向传播在graph LSTMs

    常规LSTMs本质上是深度前向神经网络。例如,一个左到右线性LSTM有一个隐藏向量对每个词。这个向量通过神经网络(循环单元)产生,词的embedding和之前词的隐藏向量作为输入。在判别学习中,这些隐藏向量作为输入对于最后分类器,从梯度是反向传播通过整个网络。

    归纳这个策略到graph伴随循环特别是需要展开再现对于一个步骤的数字。本质上,graph的复制被创造对于每步作为文本的输入。这个结果是feed-forward神经网络通过时间,且反向传播被执行依据的。

    原则上,我们可以采用同样的策略。有效的,梯度是反向传播在相似于loopy belief propagation (LBP)方法。然而,这使得学习更昂贵由于每个更新步骤需要多重迭代反向传播。更多的,loopy backpropagation面临LBP中同样问题,例如摆动或者不能相聚。

    我们观测到依赖例如互参和语篇关系一般是稀有的,所以文档graph的脊柱包括线性链和句法依赖树。例如belief propagation,如此结构可以更多有效的杠杆去反向传播通过替换同步更新,正如在展开的策略中,伴随同步更新,作为线性链LSTMs。这打开了许多机会对于各种策略对于排序反向传播更新。

    在这个paper,我们采用相似策略呈现相当好的在初步试验,留下更多探索在之后的工作。特别的,我们分割这个文档graph到两个directed acyclic graphs (DAGs)。一个DAG包括从左到右线性链,同时其他前向指针依赖。另一个DAG覆盖从右到左线性链且反向指针依赖。Figure 3展示这个策略。有效的,我们分离原始graph到前向(从左到右),随着通过反向(从右到左),构造LSTMs依据的。当文档graph仅仅包括线性链边,graph LSTMs确切的是一个双向LSTMs。

    3.3 基本循环传播单元

    一个标准LSTM单元包括输入向量(词embedding),一个记忆单元和一个输出向量(文本表示),以及一些门。这个输入门和输出门控制信息流入和流出cell,然而遗忘门可以选择的除去信息来自循环链接前一个单元。

    在线性链LSTMs,每个单元包括仅仅一个遗忘门,它仅仅一个前向(邻近词边指向之前的词)。在graph LSTMs,然而,一个单元可能有几个前向,包括链接同样的词通过不同边。我们因此介绍一个遗忘门对每个前例,相似的方法用于树LSTMs。

    编码富语言分析介绍许多明显边类别除了词邻近,例如句法依赖,打开许多可能对于参数化。这不是之前被认为的syntax-aware LSTM方法。在这个paper,我们探索两个计划介绍了更多fined-grained参数基于边类别。

    全参数
    我们的第一个提议简单的介绍一个不同的参数集对于每个边类别,伴随特别的计算如下。

    正如标准链LSTMs,$x_t$是输入词向量对于点$t$,$h_t$是隐藏层状态向量对于点$t$,$W$等是输入权重矩阵,$b$等是偏执向量。$\sigma \tanh$和$⊙$表示sigmoid函数,双曲正切函数和Hadamard积。主要的区别在循环期间。在graph LSTMs,一个单元可能有多重前向($P(t)$),对每个$j$有一个遗忘门$f_{tj}$,一个类别权重矩阵$U^{m(t,j)}$,其中$m(t,j)$表明类型$t,j$之间的关系。输入输出门$(i_t,o_t)$依赖所有先驱,然而遗忘门$(f_{tj})$仅仅依赖相关门的先驱。$c_t$和$\tilde{c}_t$表示中间计算结果在记忆单元,考虑到输入和遗忘门,将会合并输出门产生隐藏表示$h_t$。

    完全参数化是简单的,但是它需要大量参数当有许多边种类。例如,许多句法边类型,每个对应Stanford依赖标记。作为结果,我们的实验使用仅仅粗粒度种类:词邻近,句法依赖等等。接下来,我们将会考虑更细粒度的方法通过学习边类型embedding。

    边类别embedding
    去减少参数数量且杠杆潜在相关性在细粒度边类型之间,我们学习低纬度边类型embedding,执行一个先驱隐藏向量的外积和边类型embedding去产生类型隐藏表示,是一个向量。新的计算如下:

    其中$U$等是$l×l×d$张量($l$是隐藏向量的维度,$d$是边类型embedding的维度),$h_j⊗e_j$是张量积产生$l×d$矩阵。$×T$表示张量点乘积定义为$T×TA=\sum_d(T{:,:,d} \cdot A{:,d})$,产生l维度向量。边类型embedding$e_j$共同训练伴随其他参数。

    3.4 先驱LSTM方法对比

    主要的优势对于graph公式是它的一般性和灵活性。如在部分3.1线性链LSTMs是一个特别的例子当文档graph是邻近词的线性链。相似的,树LSTM是特别的例子当文档graph是分析树。

    在graph LSTMs,元知识的编码受影响来自于反向传播策略,使得它更灵活,包括引入循环。例如,Miwa和Bansal执行共同的实体和二院关系抽取通过聚集LSTM关系抽取在其他LSTM的最上方对于实体辨识。在graph LSTMs,这两个可以合并通过一个文档graph组合词近邻链和依赖路径在两个实体之间。

    文档graph可以合并其他语言信息。例如,互参和语篇分析直觉的相关于交叉句子关系抽取。尽管现存系统还没有展示改进交叉句子关系抽泣,它保留一个重要的未来方向去探索合并分析,特别的采用这些之后到生物医学领域。

    3.5 多任务学习伴随副关系

    多任务学习已经展示有用的在驯良神经网络中。通过学习文本实体表示,我们的框架使得它简单的执行多任务学习。唯一的改变是增加分别得分类器对每个相关的辅助关系。所有分类器共享相同的graph LSTMs表示学习器和词embedding,可以潜在的不想帮助通过池化他们的监督信号。

    在分子肿瘤板领域,我们应用这个范例共同的学习三元关系(药-基因-变异)和二院副关系(药物-变异)。实验结果展示这提供重大的获得在两个任务。

    4 实验细节

    我们实施我们的方法使用Theano library。我们使用了逻辑回归对于我们的关系分类器。超参数被设置基于初步实验在小的Dev数据集。训练被完成使用mini-batch随机梯度下降SGD伴随batch大小8。我们使用学习率0.02训练最多30次,提早结束基于Dev数据。隐藏向量维度在LSTM单元设置为150,edge-type embedding的维度设置为3。词embedding初始化伴随公开的可用的100维度GloVe词向量训练在6百万词来自维基百科和网络。其他模型参数初始化随机样例选取均匀的在范围$[-1,1]$。

    在多任务训练,我们交替在所有任务,每个时间通过所有数据对于一个任务,更新参数依据的。重复30词。

    5 领域:分子肿瘤板

    我们的主要实验关注在抽取三元交互作用在药物,基因,变异,对于分子肿瘤板是重要的。一个药物基因变异交互关系是大体的构建为一个联系在药物功效和变异和给出的基因之间。这里有标书数据集对这个问题。然而,由于这种知识的重要性,肿瘤学家已经细心地宗阅读paper中curating已知关系。如此人工方法不能赶上急速增长研究文学,覆盖是一般稀少的且没有更新。然而,curated知识可被用在若监督。

    5.1 数据集

    我们获得生物医学文学来自PubMed Central,构成大约一百万全文本标题在2015。注意到仅仅一部分paper包括知识关于药物-基因-变异交互关系。抽取如此知识来自大量生物医学paper的内容确切的是个挑战。就如我们将会看到的在接下啦的部分,若监督使得我们产生一个相当的训练集来自小量的人工curated因素,学习模型可以抽取大量因素的序列。在将来的工作,我们将会探索合并更多因素对于若监督和抽取来自更多全文本标题。

    我们执行标记化,部分语音标记,和句法分析使用SPLAT,获得Stanford依赖使用Stanford CoreNLP。我们使用实体标记器来自Literome'去表人药物,基因,变异。

    我们使用 Gene Drug Knowledge Database (GDKD) 和Clini- cal Interpretations of Variants In Cancer (CIVIC)用于弱监督。我们在这个paper中不使用基于细粒度交互类别知识。

    5.2 弱监督

    在文本中辨认了药物,基因和变异之后,共同发生三倍伴随已知交互被选择为正向例子。然而,不像单个句子设置在标准托监督,选择候选是必须小心。由于三倍可以属于在不同句子中,一个不受限制的文本范围选择会影响引入许多显然的错误例子。我们因此跟随Quirk和Poon在限制候选到那些存在在最小范围的,也就是,我们保留一个候选仅仅如果没有其他共同发生的同样实体在重复文本范围伴随小数量连续句子。更多,我们避免选择不可能的候选其中三元分的很远在文档中。特别的,我们考虑实体三元在K个连续句子中,忽略段落边界。K=1对应基准抽取在单个句子。我们探索$K \le 3$,捕获大部分候选不带引入许多不可能的。

    仅仅59个分别的药-基因-变异三元来自知识基准配对到文本。甚至来自如此小的独特三元集,我们获得3462三元关系实例可以作为正向例子。对于多任务学习,我们还考虑药-基因和药变异副关系,产生137469药-基因和3192药-变异关系实例作为正向样例。

    我们产生负向样例通过随机采样共同发生的实体三元不带已知交互,取决于和上面相同限制。我们采样同样数字作为正向样例去获得平衡的数据集。

    5.3 自动评估

    对比各种模型在我们提出的框架中,我们执行five-fold cross-validation,对待正向和负向样例从弱监督作为金标注。为了避免训练测试集污染,所有样例来自一个文档被赋予相同的fold。由于我们的数据集通过构建平衡了,我们简单报告平均测试准确率在held-out fold。显然,这个结果可以有噪音(也就是实体三元不被认为一个交互可能拥有一个),但是这个评估是自动且快速评估各种设计选择的影响。

    我们评估两个各种各样的graph LSTMs:“Graph LSTM-FULL” 有全参数化和 “Graph LSTM-EMBED” 伴随边类型embedding。我们对比graph LSTMs伴随三个强基准系统:一个设计好的基于特征的分类器,一个CNN,一个BiLSTM。随着Wang等,我们使用输入attention对于CNN和一个输入窗口大小5。Quirk和Poon仅仅抽取二院关系。我们扩展到三元关系通过剥离特征到每个实体对(伴随增加标注去增大两个实体类别),池化所有对的特征。

    对于二元关系抽取,先验syntax-aware方法直接适当的。所以我们还对比当前的树LSTM系统和BiLSTM在最短依赖路径在两个实体之间。

    Table 1展示交叉句子的结果,三元关系抽取。所有神经网络基于模型表现好于基于特征的分类器,表明它们在处理稀有语言模型不带需要的强度特征工程的优势。所有LSTMs显著地好于CNN在交叉句子设置,正式捕获长距离依赖的重要性。

    两个graph LSTMs的变种执行在每个,尽管Graph LSTM-FULL拥有一个小的优势,认为更多探索参数化策略可以有用。特别的,edge-type embedding可能增强通过预训练在未标记文本伴随句法分析。

    两个graph变种显著的表现好于BiLSTMs($p < 0.05$通过McNemar's chi-square测试),尽管区别很小。结果令人振奋。在Quirk和Poon,最好的系统合并句法依赖且表现好于线性链变体通过一个大的margin。所以为什么graph LSTMs不能获得一个相等的显著结果通过建模句法依赖。

    一个原因是线性链LSTMs可以已经捕获一些长距离依赖可用在句法分析。BiLSTMs显著的表现好于基于特征的分类器,甚至不带独特的句法依赖建模。结果不能完全贡献到词embedding由于LSTMs表现好于CNNs。

    另一个原因是句法分析比生物医学领域少正确率。分析错误使困难graph LSTM学习,限制潜在的获得。在部分6,我们展示支持的证据在金分析可用的领域。

    我们还报告准确率在单个句子的实例上,展示广泛的相似的集的趋势。注意到单个句子和交叉句子准确率不是直接对比的,由于测试集不同(一个归纳入另一个)。

    我们执行同样的实验在二元副关系在药物-变异对。Table 2展示结果,相似于三元例子:Graph LSTM-FULL一贯的表现的最好对于单个句子和价差句子实例。BiLSTMs在最短路径显著的表现差于BiLSTMs或者graph LSTMs,大约差了4-5点的准确率,可以贡献于低分析质量的生物医学领域。有趣的,现存的树LSTMs也表现差于graph LSTMs,尽管他们编码本质的同样的语言结构(词邻近和句法依赖)。我们贡献获得的事实Miwa和Bansal使用的分离的LSTMs对于线性链和依赖树,然而graph LSTMs学习单个表示对于两个。

    去评估是否共同学习伴随副关系可以帮助,我们执行多任务学习使用Graph LSTM-FULL共同训练抽取器对三元交互关系和药物-变异,药物-基因从属关系。Table 3展示了结果。多任务学习结果重大的获得对于三元交互关系和药物-变异交互关系。有趣的,graph LSTMs对于BiLSTMs的优势是减少多任务学习,揭示伴随更多监督信号,甚至线性链LSTMs可以学习捕获长范围依赖,通过分析graph LSTMs的特征的证据。注意到有许多实例对于药物-基因交互关系相比其他,所以我们仅仅采样相当大小的子集。因此,我们不评估药物-基因交互关系的表现,在实践中,可以简单学习所有可用数据,子样例结果不可比。

    我们包括互参和语篇关系在我们的文档graph。然而,我们没有观察任何重大的获得,相似的观察在Quirk和Poon。我们留在更多的探索在之后的工作。

    5.4 PubMed-Scale抽取

    我们最终的任务是抽取所有知识来自可用的文本。我们因此重新训练我们的模型使用最好的系统来自自动评估(也就是Graph LSTM-FULL)在所有可用的数据。结果模型用来抽取关系来自所有PubMed Central文章。

    Table 4展示候选数量和抽取的交互关系。59个独立基因-药物-变异三元来自两个数据集,我们学习到抽取巨大更多独一无二交互关系顺序。结果还强调交叉句子抽取的有用性,产生3到5次更多关系相比单个句子抽取。

    Table 5执行相似对比在唯一的药物,基因,变异的数量。再一次,机器阅读覆盖更多唯一实体,特别是伴随句子抽取。

    5.5 人工评估

    我们自动评估对比计算方法是有用的,但是可能不反应真分类器精准由于标记有噪音。因此,我们随机采样抽取关系实例并找三个知识的研究员在精准医学去评估它们的正确性。对于实例,标注被呈现伴随起源:句子伴随药物。基因和变异被强调。标注着决定每个例子不管这个实例暗示给出的实体是相关的。注意到评估不试图辨认是否关系是真的或复制在接下来的paper;当然,它关注在是否关系是需要的通过文本。

    我们关注我们的评估成就在交叉句子三元关系设置。我们考虑三个可能threshold:0.9对于高precision但是可能的低recall设置,0.5,和随机的所有候选的样例。对每个例子,150样例被选择对于所有450个标注。一个150实例的子集被两个标注者检查,inter-annotator同意达88%。

    Table 6展示分类器确实过滤掉大部分潜在候选,伴随评估实例准确率64%在threshold0.5,和75%在0.9。有趣的是,LSTMs是有效率的在筛选出许多实体提及错误,可能因为他们包括广泛文本特征。

    6 领域:基因途径

    我们还执行实验在抽取基因途径交互关系使用GENIA事件抽取数据集。这个数据集包括金句法分析对于句子,赋予一个唯一机会去调查句法分析的影响在graph LSTMs。它还允许我们测试我们的框架在监督学习。

    原始共享任务评估在复杂叠套的事件对九事件类别,许多是一元关系。跟随Poon等,我们关注在基因标准化并减少它的二元关系分类对于head-to-head对比。我们跟随他们的实验准则通过sub采样负向样例到三次正向样例。

    由于数据集不是完全平衡的,我们报告precision, recall, and F1。我们使用我们最好的graph LSTM表现来自之前实验。默认的,自动分析被用在文档graph,然而在Graph LSTM(GOLD),gold分析被使用。Table 7展示结果。再一次,尽管缺乏强度特征工程,线性链LSTMs呈现在对上伴随基于特征分类器。Graph LSTMs展示更多优势在线性链LSTMs在这个领域,显著的表现好于后者($p < 0.01$通过McNemar's chi-square测试)。最有趣的是,graph LSTMs使用gold分析显著的表现好于使用的自动分析,揭示编码高度质量分析是十分有用的。

    7 相关工作

    大多在关系抽取已经应用到单个句子的实体的二元关系。我们首先检查相关工作在单个句子二元关系抽取任务,接着检查相关工作n元交叉句子关系抽取。

    二元关系抽取 传统基于特征的方法依赖仔细的设计特征学习好的模型,经常融入多样的证据来源例如词序列和句法文本。基于核方法设计各种sub序列或者树核去捕获结构信息。最近,模型基于神经网络增进现存通过自动学习有力的特征表示。

    大多神经结构集结Figure 2,其中有核表示学习器(蓝色)去词embedding作为输入并产生文本实体表示。如此表示取关系分类器产生最终预测。有效的表示词序列,同时卷积和基于RNN的结构都成功。大多关注模型既是表面词序列或是等级句法结构。Miwa和Bansal提出按个结构利于两种信息类型,使用表面序列层,跟随依赖树序列层。

    n元关系抽取 早期工作在抽取关系,在多于两个参数之间在MUC-7,重点关注事实/事件抽取来自新闻标题。情感角色标记在Propbank或者FrameNet风格以及n元关系抽取实例,伴随抽取事件表达在单个句子。McDonald等抽取n元关系在生物医学领域,首先考虑n元关系配对关系在所有实体对之间,接着构建最大相关的实体圈子。最近,神经模型应用情感角色标记。这些工作学习神经表示通过有效的分解n元关系到二元关系在谓语和每个主题之间,通过embedding这个依赖路径在每个对之间,或者通过合并两个使用前向网络的特征。尽管一些再排序或者共同inference模型已经被采用,个体主题的表示不会相互影响。对比的,我们提出一个神经结果共同的表示n实体mention,考虑长距离依赖和inter句子信息。

    交叉句子关系抽取 几个关系抽取任务有利来自交叉句子抽取,包括MUC因素和事件抽取,记录抽取来自web pages,生物医学领域因素抽取,并语义角色标记覆盖含蓄inter句子主题扩展。这些先前的工作要么依赖特别的共同reference标注,或者假设全部文档refer到单个coherent时间,去简化问题并减少需求对强大的多句子文本实体mention的表示。最近,交叉句子关系抽取模型已经被学习伴随弱监督,且使用整体的文本多重类型证据不带依赖在这些假设上,但是工作关注在二院关系仅仅且特别的工程稀少指示器特征。

    关系抽取使用弱监督 弱监督应用到抽取二元和n元关系,传统的使用手工工程特征。神经结构最近应用弱监督抽取二元关系。我们的工作是首先提出一个神经结构用于n元关系抽取,其中tuple个实体的表示不可分解到独立表示的个体实体或实体对,整体多样信息来自多句子文本。为了利用训练数据更有效,我们展示如何多任务学习对组成的二元sub关系可以曾倩表现。我们学习的表示合并信息源带着单个句子在一个更整体和一般化相比先前方法,可以增强单个句子二元关系抽取的表现。

    8 结论

    我们探索一个一般框架对交叉句子n元关系抽取基于graph LSTMs。graph公式化归纳线性链和树LSTMs且使得它简单合并富语言分析。实验在生物医学领域展示抽取超过句子便捷产生更大知识,并编码富语言知识提供的连续增长。

    当有许多空间增强recall和precision,我们的结果表明极其阅读

    相关文章

      网友评论

          本文标题:Cross-Sentence N -ary Relation E

          本文链接:https://www.haomeiwen.com/subject/yzznfftx.html