美文网首页
A Two-stage Approach for Extendi

A Two-stage Approach for Extendi

作者: 青椒rose炒饭 | 来源:发表于2020-04-16 21:43 被阅读0次

    标签(空格分隔): 事件抽取 CNN


    摘要

    在新的扩展数据上研究事件探测,包括用少部分new type的seed instance识别event instances。

    利用大量可用数据训练。在新数据上比较CNN和feature-based方法。提出一个两阶段训练算法,帮助CNN将知识从旧事件转到新事件。

    introduction简介
    Event detection主要是定位instance及其类型。

    ED 是 event extraction中的重要任务,其中也包含了argument discovery

    ED有两个主要的方法:

    1. 基于特征的(过去的主导)

    2. 抓取语言分析和知识库的discrete structures(lexicon,syntax等)用于事件发现

    3. 用CNN研究单词的continues表示.它能抓到句子的潜在结构

    前人研究主要是supervised. 这种方法需要大量训练数据. 但是新事件没有足够的数据.

    提出一个two-stage算法训练CNN,它能搞笑训练并且将旧事件知识转到新事件抽取.

    任务定义

    给定文本集D ,包含旧事件A的触发词标注DA和新事件T的触发词标注DT, DT也并没有标注所有的T. 将从D中产生的negative-instances称作DN,通常DN中包含T中未标注的触发词(false negative)

    最终我们的目标是为T学习一个event detector,平衡训练数据DT,DA和DN. 工作和Jiang(2009)的研究关系类型扩展问题有关。

    Models for Event Detection

    将T事件探测视为二分类问题。给一个token判断是否为T中的trigger。当前的token和它的上下文组成一个触发词候选或者二分类项。
    基于特征的模型
    Feature-based model 用 FET表示

    触发词候选首先转为rich feature向量以概括语言学有用的特征用于ED。

    这个向量喂给统计学分类器如Max entropy。使用Li(2013)等的特征集用于ED.
    CNN
    限制了候选触发词的窗口大小, 设置窗口大小为2w+1 并且设置x = [x−w, x−w+1, . . . , x0, . . . , xw−1, xw]为候选触发词, current token放在x0位置. 输入之前每个xi都转换为向量(查表填充)

    表:

    1. Word Embedding Table E
    2. Position Embedding Table: i 到 xi
    3. Entity Type Embedding Table:

    转换之后的矩阵就喂给CNN了.

    参照Nguyen and Grishman,2015)首先用卷积层计算global表示向量RC. 此外也按照窗口大小2d+1拼接embeding向量获得local 表示向量RL

    拼接RC 和RL作为feed-forward neural network的输入,最后一层使用softmax执行trigger 识别(T). 这个CNN和Nguyen and Grishman, 2015的类似卷积层使用多窗口尺寸计算特征图

    Event Type Extension Systems

    The Baseline System
    上面的两种模型(FET 和 CNN)都有用于事件T的baseline(Jiang 2009)

    在第一个baseline(TARGET)中我们使用小部分DT和DN训练一个二分类模型用于T.

    在第二个baseline(UNION)中结合DT、DA中的positive instances和DN中的negative instances用于T的二分类classifier

    最终有四个Baseline:FET-TARGET, FET-UNION,CNN-TARGET, and CNN-UNION.

    Hypothesis About the Baseline
    假设存在general feature用于高效预测新的事件。模型在新事件类型上的表现受两个因素影响:
    (1) how well the model identifies and quantifies general features
    (2) how effectively the model transfers the knowledge about the general features and adapt it to the target type.

    假设当seed instances小的时候UNION机制比TARGET好。这个思想来源于在UNION中的DA提供更多的证据估计特征feature的重要性

    The Two-stage Algorithm
    即使UNION能帮助学习通用features,它的缺点是缺少导向机制使模型针对factor(ii)。

    算法
    算法的第一阶段,权重矩阵,embedding table等使用UNION、TARGET等初始化。

    相关文章

      网友评论

          本文标题:A Two-stage Approach for Extendi

          本文链接:https://www.haomeiwen.com/subject/jpgdvhtx.html