美文网首页
DocRED: A Large-Scale Document-L

DocRED: A Large-Scale Document-L

作者: SwordIng | 来源:发表于2020-02-04 17:03 被阅读0次
    1. 介绍
    目前RE研究多集中于单句子关系提取:

    但本文研究发现有40%左右的关系需从多句中提取。当前docRE数据集:Quirk and Poon(2017) and Peng et al. (2017)基于远程监督构建了docRE数据集(准确度不高); BC5CDR (Li et al., 2016)构建了领域docRE数据集(范围小)。

    2. 数据集构建
    2.1 人工标注数据集

    这里使用的是维基百科词条的介绍部分,因其质量高且包含大部分关键信息。
    1)远程监督标注生成
    在远程监督的假设下,将维基百科文档与wikidata对齐,从而选择用于人工标注的文档。
    百科文档中进行命名实体识别ER->wikidata->确定实体对及其关系。
    因推理需要多个实体或者关系,所以丢弃少于128字的文档以及少于4个实体或关系的文档。
    2)人工ER以及实体共指(entity coreference)
    3)实体链接
    使用entity linking toolkit TagMe工具,为减小连接错误导致的损失,将每个实体连接多个wikidata项。
    4)根据之前的信息,人工识别关系以及支持这些关系的证据。

    2.1 远程监督数据集

    使用bert确认人工与远程监督具有同样分布。每个实体连接到一项wikidata,关系通过远程监督标注。

    3. 数据分析

    Data Size:大
    Named Entity Types:人,地名,组织,时间,数字,其他
    Relation Types:96种常见关系
    Reasoning Types(通过哪种推理得出的关系):模式识别,逻辑推理,共指推理,常识推理
    Inter-Sentence Relation Instances:平均每个relation需要1.6个句子的支撑,40%的句子必须通过多句推理得到关系

    4.实验

    对于文档级远程监督标注将带来更多的错误。
    RE模型使用 CNN (Zeng et al., 2014),LSTM (Hochreiter and Schmidhuber, 1997),BiLSTM (Cai et al., 2016),Context-Aware model (Sorokin and Gurevych, 2017)
    每个单词输入到编码器的特征是词嵌入,实体类型嵌入,共指嵌入


    接下来有些不太明白,有时间看看代码再理解理解。
    k个共指实体ei的平均表示 其中每个实体mk 将关系预测看成多分类问题 其中,是文档中第一次提到的两个实体的相对距离,E是嵌入矩阵,是关系类型,,是关系类型相关的可训练参数

    相关文章

      网友评论

          本文标题:DocRED: A Large-Scale Document-L

          本文链接:https://www.haomeiwen.com/subject/tlorxhtx.html