1. 摘要:
为了减轻远程监督关系抽取的噪音问莪媞,基于课程学习(Curriculum learning)我们提出一种新的关系抽取方法。课程学习通过Mentor network来指导关系抽取器的训练过程,Mentor network能够在训练过程中自动调整句子的权重,赋予噪音句更低的权重,真实标注的句子更高的权重。
2. 主要贡献
- 将课程学习方法引入远程监督关系抽取任务中;
- 基于课程学习提出了一种新颖的远程监督关系抽取模型,通过协同训练两个网络(Mentor network和关系抽取器)提高关系抽取器的泛化能力;
- Mentor network用来给句子赋予权重,修改Mentor network使其适合关系抽取任务,并为训练目标提出一种高效的联合优化算法。
3. 背景
课程学习最初被成功应用于计算机视觉,它假定:适当的样本学习顺序能够指导模型训练过程收敛的更快且避免局部最小值。
这里主要介绍两种课程学习方法:Self-paced Learning和MentorNet。
(1)目标函数:

(2)Self-paced Learning:
公式(1)中的函数被定义为:

(3)MentorNet:由于Self-paced Learning并不能精确的建模样本的学习顺序,用参数捕捉数据集的特征过于简单。因此,MentorNet被提出用于进一步优化学习策略。
它定义了mentor network(导师网络)和student network(学生网络)两个神经网络。MentorNet使用导师网络学习课程函数和对学生网络的反馈,当更新学生网络的参数时,导师网络提供每个样本的权重来决定当前阶段样本的重要性。MentorNet使用局部交替梯度下降法在mini-batches下优化两个网络。
4. 方法
在我们提出的模型中,关系抽取器作为学生网络,由导师网络监督其训练过程。模型包含两个模块:
- 导师网络:给句子赋予权重;
- 关系抽取器:预测实体对之间的关系。
两个模块互相影响,协同训练。
(1)问题定义
相同实体对的所有句子作为一个bag,使用三元组标注关系标签。训练集包含N个bag,定义为
。关系抽取框架如下图所示:

(2)关系抽取器

- 输入层
- 卷积层
- 分段最大池化层
- 注意力层
- softmax层

网络输入为一个bag,以bag中的一个句子为例,需要从关系抽取器中获得以下信息作为导师网络的输入:
- Epoch Percentage Embedding(
):总训练epoch数为maxEpochs,关系抽取器已经被训练到第k个epoch,则:
,将其离散化取整为[0,99],然后进行向量化。
- Sentence Embedding(
):分段最大池化和激活函数之后得到的句子嵌入表示。
- Label Embedding(
):将句子对应的关系类型转换为标签嵌入。
- Bag中句子的损失(Ls):
,图中
表示t个loss的移动平均,并通过双向lstm来捕捉loss的方差信息,
为第t个loss的输出向量。
因此,模型的网络输入为:
将EE、SE、LE和LO连接后得到最终的输入矩阵C,将C输入两层全连接层,最终得到n个句子的权重向量
:

(4)训练目标
上文使用注意力机制进行句子嵌入的合并,将其简化定义为。导师网络输出的句子权重和句子嵌入相乘,进行再次合并:

然后,经过一层线性变化得到每个关系类别上的输出得分,再经过softmax得到输出概率。
模型训练的目标函数如下:


5. 实验设置
(1)数据集:NYT数据集;GDS数据集
(2)评价指标:“held-out evaluation”,precision/recall (PR) curve,the precision@N (P@N)

6. 实验结果







网友评论