论文笔记-Unsupervised Pretraining fo

作者: slq_5b0b | 来源:发表于2019-02-28 23:45 被阅读0次

论文笔记-Unsupervised Pretraining fo
督促自己看论文，列个列表在这里
反向传播的无监督域自适应方法
DCGAN
论文笔记：Clustering and Unsupervised
VaDE代码问题记录
MoCo：无监督视觉表示学习的动量对比
A Deep Neural Network for Unsupe
Unsupervised NMT 代码理解
InfoGraph：基于互信息最大化的无监督和半监督图表示学习

摘要：

提出一种通用的提高seq2seq模型的无监督训练方法。

seq2seq模型的encoder和decoder的权重用两个预训练语言模型初始化然后微调。

实验:wmt英德， CNN/Daily Mail

Introduction:

seq2seq模型的缺点：监督学习的语料有限，容易过拟合

本文提出了改善seq2seq效果的无监督训练方法。

在微调阶段，训练任务为语言模型任务和seq2seq的联合任务。

方法：

启发：带有attention机制的rnn的encoder和decoder工作方式与语言模型相同，所以可以用语言模型来预训练。

两个语言模型在各自语言语料上独自训练。

单语言模型损失：

开始fune-tuning可能导致灾难性的遗忘：模型在语言模型上的性能急剧下降，可能损害模型的泛化能力。

为保证模型不在有监督语料上过拟合，在fine-tuning阶段继续单语言语言模型任务，seq2seq和语言模型任务的损失相加作为最终损失。

其他改进：

残差连接：

跨过decoder的第二层，直接连接decoder的第一层rnn的输出到decoder的softmax的输入。->稳定梯度

多层注意力机制：

encoder和decoder都是两层rnn。

decoder的rnn输出与encoder第一层和第二层都有attention

网友评论

本文标题：论文笔记-Unsupervised Pretraining fo

本文链接：https://www.haomeiwen.com/subject/pdoluqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！