RNN
1. 基本结构
NLP 问题中,通常句子都是由 n 个词组成,可看做一串序列,RNN 正是可以处理序列类型数据的深度学习模型。如下图所示,RNN 由多个相同的神经网络单元,即图中的方块,连接而成,输入可看做一句话的每个单词,上一个单元的计算结果传递给下一个单元。经过串行计算后,每一个单元总是包含有之前所有单元的一些信息。
nvsn.png时刻网络单元的计算包括两个元素, 时刻的输出 和 时刻的输入 。计算后的结果 则传递给下一个单元,作为 时刻的一个输入。假设输入序列为 ,对应的中间状态为 ,输出为 。
计算过程为:
其中, 为需要更新的参数,激活函数 一般为 函数。
2. 其他结构
Many to One
当处理文本分类时,输入是一个文本序列,而输出可能只是一个类别,那么只需要对最后一个中间状态做计算并输出结果就可以了。如下图所示:
nvs1.png计算过程:
One to Many
当处理 Image Caption 任务时,输入可能是一个向量,输出则是一个文本序列,如下图所示:
1vsn.png 1vsn2.png计算过程:
Many to Many
当处理机器翻译时,输入一串文本序列,输出一串文本序列。如下图所示:
nvsn.png该模型称为 Sequence to Sequence 模型,又称为 Encoder-Decoder 模型。
3. 梯度消失(爆炸)
假设有三个时间段的 RNN 模型,如下图所示:
3time.png前向传播:
时刻的损失函数为 ,对共享参数 求导:
可见,共享参数 的每次求导计算会涉及到整个序列。而 的神经单元只有一个 激活函数,如下图所示:
LSTM3-SimpleRNN.png即:
反向传播求导过程会包含每一步求导的连乘,假如参数 也是一个比较小的数 0.02 ,当 很大时,上式就会趋于零,RNN 的梯度就会消失。反之,会梯度爆炸。
LSTM
1. 长期依赖问题
若梯度消失,那么最前面的输入所蕴含的信息就无法传达到后面。比如要推测 I grew up in France… I speak fluent French. 的最后一个词 French 。那么肯定就要知道很靠前的 France 这个词的信息,但是它们相互相隔非常远,有可能获取不到,如下图所示:
RNN-longtermdependencies.png2. 基本结构
和 RNN 的神经网络单元不同的是,LSTM 每个单元输的出包括两部分: 和 ,同时引入了遗忘门、输入门和输出门。
LSTM3-chain.png单元状态 通过累加的方式记录了 时刻需要保存的信息,作用在整个神经单元,因此可以长距离传输信息,如下图所示:
LSTM3-C-line.png遗忘门
遗忘门用来丢弃上一时刻 的部分信息,上一时刻的隐状态 和当前时刻的输入 通过一个 层,输出 介于 0 到 1 之间,1 代表信息全部保留,0 代表全部丢弃。
LSTM3-focus-f.png输入门
- 为了更新单元状态 ,将 和 传递给 函数,输出 同样介于 到 之间,决定将更新临时单元状态中的哪些值。
- 为了协调神经单元,将 和 传递给 函数,输出的临时单元状态 介于 到 之间。
- 将 和 逐点相乘。
LSTM3-focus-i.png
单元状态
- 将 与 逐点相乘,和接近 的值相乘,表示该词的作用不太大,会逐渐被遗忘;反之,该词的权重会变大,表示比较重要。
- 将结果和输入门的输出逐点相加,将单词的向量加加减减,更新为新的值,构成当前时刻神经单元的所有信息 。
输出门
- 将 和 传递给 函数,输出 同样介于 到 之间,决定 的哪些部分需要输出。
- 将 传递给 函数,与 逐点相乘得到输出,该输出作为当前隐状态 参与下一个神经单元进行计算。
网友评论