[Deep Learning] 循环神经网络 RNN

作者: 舒也ella | 来源:发表于2018-09-05 17:11 被阅读0次

[Deep Learning] 循环神经网络 RNN
「深度学习」循环神经网络 RNN 学习笔记
深度学习_RNN循环神经网络，序列模型
深度学习_循环神经网络RNN与LSTM
深度学习笔记之循环神经网络RNN学习笔记
浅析RNN循环神经网络
2018-11-11
7.循环神经网络(RNN) 基础讲解
2020-02-14
2019-02-27 Lstm函数

本文是深度学习总结系列的第四篇，本文的主要内容是对循环神经网络进行介绍。
本系列传送门：https://www.jianshu.com/nb/17592740

本文的主要内容包括：

语言模型
循环神经网络
2.1 单个RNN单元
2.2 RNN基础架构
Vanilla RNN的问题及改进
3.1 梯度消失和梯度爆炸
3.2 LSTM
3.3 GRU
3.4 训练问题
RNN变种

1. 语言模型

语言模型通过提供句子中各个词的概率分布 $P(w_i | w_1,... w_{i-1})$ 预测下一个词，N-gram通过统计不同N-grams的频率，使用它们来计算下一个词，这样模型需要保存所有可能的N-grams的数量，模型大小为n的指数级。

4-gram
传统的N-gram统计模型最大问题是在预测使用时无法处理新出现的词，这一问题神经网络可以解决。然而，如果简单地使用基础的MLP，输入句子序列预测接下来一个词，则会丢失句子序列的时序依赖，且输入维度只能是固定维度。

MLP
为解决上述问题，可以对基础的MLP稍作改进，使用n-gram MLP，例如下图的2-gram MLP，这一模型不限制输入序列的维度，也可以保留句子的序列信息，然而n-gram中所能保留的序列依赖信息依然是固定且有限的（取决于n的选择），且模型大小受n-gram size的影响会导致参数爆炸。

2-gram MLP

LM的评价指标
混乱度

OOV的解决：
用预训练的语料集
char-level
random vector

glove word2vec加统计信息
fasttext subword level

不同上下文下同一个词的embedding理应不同

为解决语言模型中参数爆炸问题，RNN基于时序平稳性的假设提出了参数共享的方案，据此，RNN可以基本实现对序列数据的有效处理，这一发展过程可总结为RNN的两大特性：
一是，类似于卷积神经网络的空间局部依赖假设，RNN基于时序的局部依赖假设（Local Dependency Assumption）保留了序列的时序信息。