LSTM结构图:
三个门控:reset门。越大,记忆上一次越多;越小,遗忘(forget)越多
:update门。越大,看的越远(long term memory);越小,看的越近。
一般来说那些具有短距离依赖的单元
reset gate
比较活跃,具有长距离依赖的单元update gate
比较活跃。
(如果为1,而为0 那么相当于变成了一个标准的RNN,能处理短距离依赖)
我的理解,为什么GRU比LSTM少了一个门:
定性来看,GRU比LSTM少的应该是output gate
。
GRU的reset gate
对应LSTM的forget gate
,表示保留多少long-term memory
GRU的update gate
对应LSTM的input gate
,表示新进来的信息的重要性
但是数学上来看相似度不是太大。只是定性地感觉。。
网友评论