RNN和LSTM

作者: 三方斜阳 | 来源:发表于2021-06-01 15:14 被阅读0次

02-25：RNN算法
深度学习——RNN(2)
循环神经网络内部
RNN 和 LSTM RNN
RNN，LSTM，GRU
NLP自然语言理解的学习
rnn seq2seq attention transforme
RNN和LSTM
[tensorflow](六) RNN
「深度学习」循环神经网络 RNN 学习笔记

循环神经网络——RNN：

循环神经网络的主要用途是处理和预测序列数据，循环神经网络的来源是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上，循环神经网络会记忆之前的信息，并利用之前的信息影响后面节点的输出。也就是说，循环神经网络的隐藏层之间的节点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。

理论上循环神经网络可以看做是同一神经网络结构被无限复制的结果，如下图等号左侧，由于目前循环神经网络无法做到真正的无限循环，所以一般将循环体展开，如下图等号右侧。

循环神经网络按时间展开后结构

可以看到：在每一个时刻会有一个输入 $X_{t}$ ，根据循环神经网络当前的状态 $A_{t}$ 提供一个输出 $h_{t}$ ,而循环神经网络当前状态 $A_{t}$ 是根据上一时刻的状态 $A_{t-1}$ 和当前的输入 $X_{t}$ 共同决定的。

从这个结构来看，容易得出：循环神经网络擅于解决时间序列相关问题，对于序列数据，将序列上不同时刻的数据依次传入循环神经网络的输入层，输出可以是对序列中下一个时刻的预测。

所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh 层。

下图展现了一个循环神经网络前向传播的具体计算过程，可以看到每个时刻的输入会跟上一时刻的输出拼接之后进行前向算法计算，乘以权重矩阵加上偏置值，然后当前时刻的输出经过softmax+偏置等操作之后产生当前单元的最终输出，另一部分送入下一个时刻重复此过程：

循环神经网络前向传播的计算过程

长短时记忆网络——LSTM:

RNN的关键是利用历史信息来帮助当前的决策，但是不幸的是，随着序列长度的增加，RNN无法有效的利用历史信息。于是有了一种特殊的RNN——LSTM，能够学习长的依赖关系，LSTM是为了避免长依赖问题而精心设计的。记住较长的历史信息实际上是他们的默认行为，而不是他们努力学习的东西。

LSTM 同样是重复神经网络模块的链式的形式，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，整体上除了h在随时间流动，细胞状态c也在随时间流动，细胞状态c就代表着长期记忆。

下面具体解释LSTM的内部工作机制，首先是各种图标的含义：

黄色的矩形是学习得到的神经网络层

粉色的圆形表示一些运算操作，诸如加法乘法

黑色的单箭头表示向量的传输

两个箭头合成一个表示向量的连接

一个箭头分开表示向量的复制

1. LSTM 的关键就是细胞状态，水平线在图上方贯穿运行，直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

2. LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表不许任何量通过，1 就指允许任意量通过；LSTM拥有三个门，来保护和控制细胞状态

3. 遗忘门

遗忘门决定我们会从细胞状态中丢弃什么信息，该门会读取 $h_{t-1}$ 和 $x_{t}$ ，输出一个在 0 到 1 之间的数值给每个在细胞状态 $C_{t-1}$ 中的数字。1 表示完全保留，0 表示完全舍弃。右侧公式里的内容跟上文说到的RNN的计算细节一致。最终通过一个sigmoid实现新的取舍功能。

所说的遗忘可以理解为之前的内容记住多少，其精髓在于只能输出（0，1）小数的sigmoid函数和粉色圆形的乘法操作

4. 输入门

输入门确定什么样的新信息被存放在细胞状态中，这里包含两个部分：第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后，一个 tanh 层创建一个新的候选值向量 $\tilde{C_{t} }$ 会被加入到状态中。

现在开始更新旧细胞状态， $C_{t-1}$ 更新为 $C_{t}$ ，们把旧状态与 $f_{t}$ 相乘，丢弃掉我们确定需要丢弃的信息，接着加上 $i_{t} *\tilde{C_{t} }$ ，这就是新的候选值，根据我们决定更新每个状态的程度进行变化。

5. 输出门

我们需要确定输出什么值。这个输出将会基于我们的细胞状态，但是也是一个过滤后的版本。首先，我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着，我们把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。