美文网首页
【论文阅读】RNN语言模型

【论文阅读】RNN语言模型

作者: 神游物外的轮子 | 来源:发表于2019-08-08 21:23 被阅读0次

Recurrent neural network based language model

提出了一种RNN语言模型,通过混合RNN模型能够在backoff模型基础上,下降50%的困惑度。
目前主流提升ngram性能的方法有两种:基于长文本信息的方法以及基于将单词分类的方法。

RNN模型

输入层x,隐层s(状态层)以及输出层y
t时刻的网络输入为x(t),输出为y(t),网络状态为s(t),单词为w(t)
\begin{align} x(t) = w(t) + s(t-1) \\ s_j(t) = f \left( \sum_ix_i(t)u_{ji} \right) \\ y_k(t) = g \left( \sum_js_j(t)v_{kj} \right) \end{align}
其中f(z)是sigmoid激活函数:
f(z) = \frac{1}{1+e^{-z}}
g(z)是softmax函数:
g(z_m) = \frac {e^{z_m}}{\sum_ke^{z_k}}

实现细节

  • s(0)初始化为较小数字的向量,诸如0.1(当处理庞大的数据时,初始化并非占据主要地位)
  • 输入x(t)由独热向量和网络状态s(t-1)向量拼接而成,所以输入的维数为词表大小V(实践中从3万到20万)加上隐层的维数(一般有30-500隐层单元)
  • 权重使用小值进行初始化(均值为0,方差为0.1的随机高斯噪声)
  • 初始学习率\alpha=0.1,如果对数相似度降低,则折半学习率,一般收敛需要10-20个epoch

优化

  • 对于出现较少的单词同质化,重新定义概率
    \begin{equation} P(w_i(t+1) | w_i(t), s(t-1)) = \begin{cases} \frac{y_{rare}(t)}{C_{rare}} & \text{if } w_i(t+1) \text{ is rare,} \\ y_i(t) & \text{otherwise} \end{cases} \end{equation}

相关文章

  • 【论文阅读】RNN语言模型

    Recurrent neural network based language model 提出了一种RNN语言模...

  • Lecture 10 循环神经网络

    本课重点: RNN的概念与多种形式 语言模型 图像标注、视觉问答、注意力模型 RNN梯度流 1 RNN的概念与多种...

  • RNN语言模型

    学习笔记 循环神经网络 循环神经网络(Recurrent Neural Networks)是另一种可以用来进行语言...

  • RNN LSTM语言模型 ——RNN

    RNN的结构 RNN的缺点 ref:https://blog.csdn.net/jizhidexiaoming/a...

  • Attention

    Attention叫法的起源:[1]其实这与之前语言模型的一个瓶颈有关,因为传统的rnn语言模型,会将输入编码进一...

  • NEURAL ARCHITECTURE SEARCH WITH

    论文原文 Abstract idea RNN生成model descriptions train this RNN...

  • Introduction of Sequence models

    Why Sequence Models 循回神经网络(RNN)等序列模型已经颠覆了许多领域,如语言辨识,自然语言处...

  • NLP in TensorFlow: 不同的神经网络模型

    模型包括: 双向RNN,多层双向RNN,CNN,CNN+RNN。 导入数据和预处理 single bidirect...

  • 关于tensorflow添加ptb库的解决方案

    ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集训练RNN神经网络作为语言预测,tensorflow对...

  • python 词云生成

    背景 最近在研究一些深度学习序列模型,比如RNN和LSTM,这种主要来处理时序数据的神经网络。传统的语言模型主要是...

网友评论

      本文标题:【论文阅读】RNN语言模型

      本文链接:https://www.haomeiwen.com/subject/robfjctx.html