TensorFlow-10-基于 LSTM 建立一个语言模型

作者: 不会停的蜗牛 | 来源:发表于2017-05-21 00:28 被阅读1262次

TensorFlow-10-基于 LSTM 建立一个语言模型
DDD简述
一种使用快速、简单有效的文本分类方法
基于Bi-LSTM的文本情感分类
第一章消化知识
领域驱动设计
[fairseq] tutorial
理解LSTM网络（整合）
浅谈Objective-C中的类与对象
AWD-LSTM为什么这么棒？

今日资料：
https://www.tensorflow.org/tutorials/recurrent
中文版：
http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/recurrent.html
代码：
https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py

今天的内容是基于 LSTM 建立一个语言模型

人每次思考时不会从头开始，而是保留之前思考的一些结果，为现在的决策提供支持。RNN 的最大特点是可以利用之前的信息，即模拟一定的记忆，具体可以看我之前写过的这篇文章：
详解循环神经网络(Recurrent Neural Network)
http://www.jianshu.com/p/39a99c88a565

RNN 虽然可以处理整个时间序列信息，但是它记忆最深的还是最后输入的一些信号，而之前的信号的强度就会越来越低，起到的作用会比较小。
而 LSTM 可以改善长距离依赖的问题，不需要特别复杂的调试超参数就可以记住长期的信息。关于 LSTM 可以看这一篇文章：
详解 LSTM
http://www.jianshu.com/p/dcec3f07d3b5

今天要实现一个语言模型，它是 NLP 中比较重要的一部分，给上文的语境后，可以预测下一个单词出现的概率。

首先下载 ptb 数据集，有一万个不同的单词，有句尾的标记，并且将罕见的词汇统一处理成特殊字符；

$ wget http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
$ tar xvf simple-examples.tgz

PTBInput，
定义语言模型处理输入数据的一些参数，包括 LSTM 的展开步数 num_steps，用 reader.ptb_producer 读取数据和标签：

PTBModel，
def __init__(self, is_training, config, input_) 包括三个参数，训练标记，配置参数以及输入数据的实例;
把这几个变量读取到本地，hidden_size 是隐藏层的节点数，vocab_size 是词汇表的大小；

def lstm_cell()，设定基本的 LSTM 单元，用的是 tf.contrib.rnn.BasicLSTMCell；
如果 if is_training and config.keep_prob < 1 这个条件的话，在 LSTM 单元后面可以加一个 dropout 层；
再用 tf.contrib.rnn.MultiRNNCell 把多层的 LSTM 堆加到一起；
用 cell.zero_state 将 LSTM 的初始状态设置为0；

接下来是 embedding 矩阵，行数是词汇表的大小，列数是每个单词的向量表达的维度，在训练过程中，它可以被优化和更新；

接下来我们要定义输出，限制一下反向传播时可以展开的步数，将 inputs 和 state 传到 LSTM，然后把输出结果添加到 outputs 的列表里；

然后将输出的内容串到一起，接下来 softmax 层，接着要定义损失函数 loss，它的定义形式是这样的：

然后我们要加和整个 batch 的误差，再平均到每个样本的误差，并且保留最终的状态，如果不是训练状态就直接返回；

接下来是定义学习速率，根据前面的 cost 计算一下梯度，并将梯度的最大范数设置好，相当于正则化的作用，可以防止梯度爆炸；

这个学习速率还可以更新，将其传入给 _new_lr，再执行 _lr_update 完成修改：

接下来可以定义几种不同大小的模型的参数，其中有学习速率，还有梯度的最大范数，还是 LSTM 的层数，反向传播的步数，隐含层节点数，dropout 保留节点的比例，学习速率的衰减速度：

run_epoch，是定义训练一个 epoch 数据的函数，首先初始化 costs 还有 iters，state；
将 LSTM 的所有 state 加入到 feed_dict 中，然后会生成结果的字典表 fetches，其中会有 cost 和 final_state；
每完成 10% 的 epoch 就显示一次结果，包括 epoch 的进度，perplexity（是cost 的自然常数指数，这个指标越低，表示预测越好），还有训练速度（单词数每秒）：

在 main() 中：
用 reader.ptb_raw_data 读取解压后的数据；
得到 train_data, valid_data, test_data 数据集；

用 PTBInput 和 PTBModel 分别定义用来训练的模型 m，验证的模型 mvalid，测试的模型 mtest；

m.assign_lr 对 m 应用累计的 learning rate；

每个循环内执行一个 epoch 的训练和验证，输出 Learning rate，Train Perplexity， Valid Perplexity。

推荐阅读历史技术博文链接汇总
 http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的

网友评论

IT_xiao小巫:如果要预测具体要怎么做? 比如我要预测一个句子的ppl值。另外您有尝试过中文的RNN语言模型训练吗，跟这个有什么不同？
PassionateLee:@牛牛姐，代码中每次训练一个batch size的数据，训练一次就迭代更新参数一次，如果我的steps设置为50000，那么我就相当于迭代更新50000次么？但是实际上，我们的数据量并没有50000*Batch size这么多啊？
另外我想一个个句子用lstm训练，我已经分好词了，但是每个句子中词数目不一样。这种情况该怎么处理啊？
维真_dfb9:https://github.com/caicloud/tensorflow-tutorial/issues/28 这里是我在他们的github上问的问题
维真_dfb9:@不会停的蜗牛好用了，不过只训练了两轮就结束了，感觉好奇怪，
In iteration:1
after 0tep ,perplexity is 9984.952
Epoch: 1 Validation Perplexity : 2210.015
In iteration:2
after 0tep ,perplexity is 6050.431
Epoch: 2 Validation Perplexity : 415.539
Test Perplexity:416.213
不会停的蜗牛:@维真_dfb9 你试过这个了么：https://github.com/tensorflow/tensorflow/issues/8191
维真_dfb9:姐有没有github呀？其实我想说上个礼拜就照着tensorflow实战的那本书（彩云科技的那个哥哥写的，据说那个哥哥是在谷歌干了好几年回国创业的）敲的代码，结果训练的时候说我的变量reuse有问题，然后就一直没跑通

本文标题：TensorFlow-10-基于 LSTM 建立一个语言模型

本文链接：https://www.haomeiwen.com/subject/bmqmxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

TensorFlow-10-基于 LSTM 建立一个语言模型

相关文章