coursera deeplearning
RNN 模型
![](https://img.haomeiwen.com/i3633179/e7549880fde482fe.png)
![](https://img.haomeiwen.com/i3633179/0f0a6ef74b4d70a2.png)
激活函数一般是tanh , 化简后的公式为
![](https://img.haomeiwen.com/i3633179/98d50a232c759a98.png)
损失函数
![](https://img.haomeiwen.com/i3633179/8c05c7e00b19fdda.png)
y : 标签值
ŷ: 实际值
t : 时间戳
Ty : 句子的长度
RNN 的不同形式
![](https://img.haomeiwen.com/i3633179/5296adb9538f812e.png)
one to many : 经常用来音乐生成和句子生成
![](https://img.haomeiwen.com/i3633179/40c86c11143f3ee2.png)
many to one : 可以用来判断语句的情绪是好的还是坏的
![](https://img.haomeiwen.com/i3633179/02268fac7ae41dc3.png)
many to many : 可以用来实现命名实体识别 name entity recognition
![](https://img.haomeiwen.com/i3633179/9598e3d915c4e182.png)
many to many : 可以实现自动翻译
Sampling Novel Sequences 对新序列采样
采样根据当前词计算出每一个词在下一个位置的概率,根据概率分布进行随机采样,当前词的输出是下一个词的输入,一般使用字级模型,不用字符级模型,字符级模型计算量大,比较复杂
Vanishing Gradients with RNNs 在RNN中的梯度弥散
gradient clipping : 当梯度大于某个阈值,出现梯度爆炸时,将其缩小
Vanishing Gradients : 当单词比较多时,相当于RNN的结构很长,容易出现梯度弥散,因此,某一个较早时间戳的词对较晚时间戳的词影响很小,不擅长捕获远程依赖关系
网友评论