一、Recurrent Neural Network
图1.1 Recurrent Neural Network1图1.2 Recurrent Neural Network2
图1.3 Recurrent Neural Network3
二、Naive RNN
图2.1 Naive RNN1图2.2 Naive RNN2
Naive RNN更新参数时易出现梯度消失/爆炸的问题。
三、LSTM
图3.1 LSTM1图3.2 LSTM2
- peephole
- Naive RNN vs LSTM
记忆更新部分的操作,Naive RNN为乘法,LSTM为加法。因此LSTM能记得更久些。
记。当时,即使其他项很小,梯度也能够很好地传达到上一个时刻;当时,上一个时刻的记忆不会影响当前时刻,梯度也不会回传回去。因此,控制了梯度回传的衰减程度。
能有效地缓解梯度消失/爆炸问题。
- LSTM设计原因
标准形式的LSTM能工作得很好;输入门与遗忘门联动(类似GRU)以及没有peephole也能工作得很好。
输出激活函数、遗忘门对于LSTM的表现很重要。
四、GRU
图4.1 GRU1图4.2 GRU2
与LSTM相比,GRU可以看做是输入门和遗忘门联动。由4个矩阵乘法变为了3个,参数量更少,降低了过拟合的可能性。
五、attention基础
- dot
- general
- concat
网友评论