RNN与LSTM介绍

作者: 上弦同学 | 来源:发表于2019-02-20 22:03 被阅读0次

一句话，有时候单独拎出来难以理解，而放在整篇文章中，我们则容易通过联系上下文理解。
什么叫联系上下文理解，就是把前文信息联系结合到当前语句上，这也是RNN的关键。

image.png

左边是一个循环神经网络结构，将其展开，会得到一个序列结构，上一次的输出会作为下一次的输入（即前面的输入将会对后面的输入产生影响）。

这种链式的特征揭示了 RNN 本质上和序列相关，因而很适合处理语音，文本，这种序列数据。

RNN关键点是能够连接先前的信息到当前任务上，如通过前文推断当前语句含义。但是，当相关信息和当前语句间隔过大时候，RNN将难以学习到远距离信息。

image.png

LSTM 是一种特殊的RNN。通过精巧的设计（CNN中的深度残差网络也是类似）解决长序列训练过程中的梯度消失和梯度爆炸问题（即远距离传递导致的信息丢失问题）。

标准RNN由简单的神经网络模块按时序展开成链式。这个重复模块往往结构简单且单一，如一个tanh层。这种记忆叠加方式显得简单粗暴。

image.png

LSTM内部有较为复杂的结构。能通过门控状态来选择调整传输的信息，记住需要长时记忆的信息，忘记不重要的信息。

image.png

LSTM关键在于增加一条贯穿与链上的信息传送带，称为细胞状态（cell state）。

image.png

LSTM通过精心设计门结构来对cell state上的信息进行增添和移除。
门是使得信息选择式通过的方法。包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。

image.png

Sigmoid 层输出0到1之间的数值，描述每个部分有多少量可以通过。
0 代表“不许任何量通过”，1 代表“允许任意量通过”。

LSTM通过三个门结构来维护cell state上的信息。

image.png

image.png

网友评论

本文标题：RNN与LSTM介绍

本文链接：https://www.haomeiwen.com/subject/mfykyqtx.html