《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》阅读笔记
神经网络机器翻译的目标是最大化根据输入x得到目标y的条件概率。。并且机器翻译分为encoder和decoder两个部分。
模型
1.1 一般的模型
Encoder: 读入输入的句子,,输出为向量c。一般方式是通过RNN:
,
为时间t时的hidden state。f和q都是非线性方程,例如:f可为lstm,。
Decoder:
其中。使用RNN来模拟这个条件概率,可以写为:
,
g是非线性的、多层的方程,是Decode时候的RNN的hidden state。
1.2 带有attention的模型
在这个新模型中,Encoder部分使用双向RNN,Decoder部分使用了带有attention的RNN.
定义了一个新的条件概率公式:
,
与原来的条件概率公式不同的是,对于不同的输出yi,此处的条件概率依赖于不同的向量ci。 ci依赖于,而每个hi包含所有输入序列的信息,并强烈focus on第i个单词的周围。
,
其中
这是一个对齐模型,用来评估j周围的输入和i的输出匹配的程度。这个对齐模型可以跟整个RNN模型一起训练。用来评估yi可以作为xj翻译的概率。
Encoder:
使用BiRNN
*补充:
在实际训练模型中,作者用了gated hidden unit,类似于lstm,
网友评论