美文网首页
论文笔记-Unsupervised Pretraining fo

论文笔记-Unsupervised Pretraining fo

作者: slq_5b0b | 来源:发表于2019-02-28 23:45 被阅读0次

摘要:

提出一种通用的提高seq2seq模型的无监督训练方法。

seq2seq模型的encoder和decoder的权重用两个预训练语言模型初始化然后微调。

实验:wmt英德, CNN/Daily Mail

Introduction:

seq2seq模型的缺点:监督学习的语料有限,容易过拟合

本文提出了改善seq2seq效果的无监督训练方法。

在微调阶段,训练任务为语言模型任务和seq2seq的联合任务。

方法:

启发:带有attention机制的rnn的encoder和decoder工作方式与语言模型相同,所以可以用语言模型来预训练。

两个语言模型在各自语言语料上独自训练。

单语言模型损失:

开始fune-tuning可能导致灾难性的遗忘:模型在语言模型上的性能急剧下降,可能损害模型的泛化能力。

为保证模型不在有监督语料上过拟合,在fine-tuning阶段继续单语言语言模型任务,seq2seq和语言模型任务的损失相加作为最终损失。

其他改进:

残差连接:

跨过decoder的第二层, 直接连接decoder的第一层rnn的输出到decoder的softmax的输入。->稳定梯度

多层注意力机制:

encoder和decoder都是两层rnn。

decoder的rnn输出与encoder第一层和第二层都有attention

相关文章

网友评论

      本文标题:论文笔记-Unsupervised Pretraining fo

      本文链接:https://www.haomeiwen.com/subject/pdoluqtx.html