美文网首页
论文笔记-Unsupervised Pretraining fo

论文笔记-Unsupervised Pretraining fo

作者: slq_5b0b | 来源:发表于2019-02-28 23:45 被阅读0次

    摘要:

    提出一种通用的提高seq2seq模型的无监督训练方法。

    seq2seq模型的encoder和decoder的权重用两个预训练语言模型初始化然后微调。

    实验:wmt英德, CNN/Daily Mail

    Introduction:

    seq2seq模型的缺点:监督学习的语料有限,容易过拟合

    本文提出了改善seq2seq效果的无监督训练方法。

    在微调阶段,训练任务为语言模型任务和seq2seq的联合任务。

    方法:

    启发:带有attention机制的rnn的encoder和decoder工作方式与语言模型相同,所以可以用语言模型来预训练。

    两个语言模型在各自语言语料上独自训练。

    单语言模型损失:

    开始fune-tuning可能导致灾难性的遗忘:模型在语言模型上的性能急剧下降,可能损害模型的泛化能力。

    为保证模型不在有监督语料上过拟合,在fine-tuning阶段继续单语言语言模型任务,seq2seq和语言模型任务的损失相加作为最终损失。

    其他改进:

    残差连接:

    跨过decoder的第二层, 直接连接decoder的第一层rnn的输出到decoder的softmax的输入。->稳定梯度

    多层注意力机制:

    encoder和decoder都是两层rnn。

    decoder的rnn输出与encoder第一层和第二层都有attention

    相关文章

      网友评论

          本文标题:论文笔记-Unsupervised Pretraining fo

          本文链接:https://www.haomeiwen.com/subject/pdoluqtx.html