DocRED: A Large-Scale Document-L

作者: SwordIng | 来源:发表于2020-02-04 17:03 被阅读0次

DocRED: A Large-Scale Document-L
adidas Parley Ultra Boost Clima
图(graph)神经网络--LGCN大图卷积网络(tensorf
论文摘要
醉仙瑶
VGG 论文学习记录
读书报告-组号 13组题目 VERY DEEP CONVOL
卷积神经网络VGG 论文细读 + Tensorflow实现
Spark处理框架
ZorkSingle

1. 介绍

目前RE研究多集中于单句子关系提取：

但本文研究发现有40%左右的关系需从多句中提取。当前docRE数据集：Quirk and Poon(2017) and Peng et al. (2017)基于远程监督构建了docRE数据集(准确度不高); BC5CDR (Li et al., 2016)构建了领域docRE数据集(范围小)。

2. 数据集构建

2.1 人工标注数据集

这里使用的是维基百科词条的介绍部分，因其质量高且包含大部分关键信息。
1）远程监督标注生成
在远程监督的假设下，将维基百科文档与wikidata对齐，从而选择用于人工标注的文档。
百科文档中进行命名实体识别ER->wikidata->确定实体对及其关系。
因推理需要多个实体或者关系，所以丢弃少于128字的文档以及少于4个实体或关系的文档。
2）人工ER以及实体共指（entity coreference）
3）实体链接
使用entity linking toolkit TagMe工具，为减小连接错误导致的损失，将每个实体连接多个wikidata项。
4）根据之前的信息，人工识别关系以及支持这些关系的证据。

2.1 远程监督数据集

使用bert确认人工与远程监督具有同样分布。每个实体连接到一项wikidata，关系通过远程监督标注。

3. 数据分析

Data Size：大
Named Entity Types：人，地名，组织，时间，数字，其他
Relation Types：96种常见关系
Reasoning Types（通过哪种推理得出的关系）：模式识别，逻辑推理，共指推理，常识推理
Inter-Sentence Relation Instances：平均每个relation需要1.6个句子的支撑，40%的句子必须通过多句推理得到关系

4.实验

对于文档级远程监督标注将带来更多的错误。
RE模型使用 CNN (Zeng et al., 2014)，LSTM (Hochreiter and Schmidhuber, 1997)，BiLSTM (Cai et al., 2016)，Context-Aware model (Sorokin and Gurevych, 2017)
每个单词输入到编码器的特征是词嵌入，实体类型嵌入，共指嵌入