摘要:
提出一种通用的提高seq2seq模型的无监督训练方法。
seq2seq模型的encoder和decoder的权重用两个预训练语言模型初始化然后微调。
实验:wmt英德, CNN/Daily Mail
Introduction:
seq2seq模型的缺点:监督学习的语料有限,容易过拟合
本文提出了改善seq2seq效果的无监督训练方法。
在微调阶段,训练任务为语言模型任务和seq2seq的联合任务。
方法:
启发:带有attention机制的rnn的encoder和decoder工作方式与语言模型相同,所以可以用语言模型来预训练。
两个语言模型在各自语言语料上独自训练。
单语言模型损失:
开始fune-tuning可能导致灾难性的遗忘:模型在语言模型上的性能急剧下降,可能损害模型的泛化能力。
为保证模型不在有监督语料上过拟合,在fine-tuning阶段继续单语言语言模型任务,seq2seq和语言模型任务的损失相加作为最终损失。
其他改进:
残差连接:
跨过decoder的第二层, 直接连接decoder的第一层rnn的输出到decoder的softmax的输入。->稳定梯度
多层注意力机制:
encoder和decoder都是两层rnn。
decoder的rnn输出与encoder第一层和第二层都有attention
网友评论