论文精读：Curriculum learning for dis

作者: Automan_mm | 来源:发表于2020-03-31 01:09 被阅读0次

论文精读：Curriculum learning for dis
【论文精读】DeepFirearm: Learning Disc
Pytorch学习记录- 训练GRU Seq2Seq（论文再读）
21世纪学生英文报（初一）第14期 What's cooking
【论文精读】文献综述：别人干过什么
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
【论文精读】Deep-Person: Learning Disc
Active Learning&Curriculum L
【论文精读】引言：一个“引”字贯穿其中
【5分钟 Paper】Deep Reinforcement Le

1. 摘要：

为了减轻远程监督关系抽取的噪音问莪媞，基于课程学习（Curriculum learning）我们提出一种新的关系抽取方法。课程学习通过Mentor network来指导关系抽取器的训练过程，Mentor network能够在训练过程中自动调整句子的权重，赋予噪音句更低的权重，真实标注的句子更高的权重。

2. 主要贡献

将课程学习方法引入远程监督关系抽取任务中；
基于课程学习提出了一种新颖的远程监督关系抽取模型，通过协同训练两个网络（Mentor network和关系抽取器）提高关系抽取器的泛化能力；
Mentor network用来给句子赋予权重，修改Mentor network使其适合关系抽取任务，并为训练目标提出一种高效的联合优化算法。

3. 背景

课程学习最初被成功应用于计算机视觉，它假定：适当的样本学习顺序能够指导模型训练过程收敛的更快且避免局部最小值。
这里主要介绍两种课程学习方法：Self-paced Learning和MentorNet。
（1）目标函数：

其中，表示神经网络模型函数，为模型参数，为模型的损失函数，用来表示第个样本是否应该包含在当前阶段中，是课程函数。

（2）Self-paced Learning：
公式（1）中的函数 $G$ 被定义为：

Self-paced Learning采用交错优化方法优化变量和。具体来说，首先固定优化，当损失函数时，样本被选为easy样本参加下一次的模型训练；其次，固定优化，只使用少量被选中的easy样本训练分类器。训练过程中，每个epoch交错训练一次。参数控制模型的“容忍度”，模型训练初期较小，然后逐渐增大，使得更多的样本参与训练。

（3）MentorNet：由于Self-paced Learning并不能精确的建模样本的学习顺序，用参数 $\lambda$ 捕捉数据集的特征过于简单。因此，MentorNet被提出用于进一步优化学习策略。
它定义了mentor network（导师网络）和student network（学生网络）两个神经网络。MentorNet使用导师网络学习课程函数 $G$ 和对学生网络的反馈，当更新学生网络的参数时，导师网络提供每个样本的权重来决定当前阶段样本的重要性。MentorNet使用局部交替梯度下降法在mini-batches下优化两个网络。

4. 方法

在我们提出的模型中，关系抽取器作为学生网络，由导师网络监督其训练过程。模型包含两个模块：

导师网络：给句子赋予权重；
关系抽取器：预测实体对之间的关系。

两个模块互相影响，协同训练。

（1）问题定义
相同实体对的所有句子作为一个bag，使用三元组 $(h_i,r_i,t_i)$ 标注关系标签。训练集包含N个bag，定义为 $D=\{B_1,B_2,...,B_N\}$ 。关系抽取框架如下图所示：

（2）关系抽取器

使用PCNN作为关系抽取器，通过注意力层和softmax层进行关系分类，网络结构如下图所示：

输入层
卷积层
分段最大池化层
注意力层
softmax层

（3）Mentor Network

网络输入为一个bag，以bag中的一个句子为例，需要从关系抽取器中获得以下信息作为导师网络的输入：

Epoch Percentage Embedding（ $ee_t$ ）：总训练epoch数为maxEpochs，关系抽取器已经被训练到第k个epoch，则： $epochPercent = k/maxEpochs*100\%$ ，将其离散化取整为[0,99]，然后进行向量化。
Sentence Embedding（ $se_t$ ）：分段最大池化和激活函数之后得到的句子嵌入表示。
Label Embedding（ $le_t$ ）：将句子对应的关系类型转换为标签嵌入。
Bag中句子的损失（Ls）： $Ls=\{l_1,l_2,...,l_n\}$ ，图中 $l_t^{pt}$ 表示t个loss的移动平均，并通过双向lstm来捕捉loss的方差信息， $lo_t$ 为第t个loss的输出向量。