美文网首页
2020-02-25

2020-02-25

作者: 暗物质与小行星 | 来源:发表于2020-02-25 22:26 被阅读0次

    循环神经网络

    本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量H,用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测。

    循环神经网络的构造

    我们先看循环神经网络的具体构造。假设Xt∈Rn×d是时间步t的小批量输入,Ht∈Rn×h是该时间步的隐藏变量,则:

    Ht=ϕ(XtWxh+Ht−1Whh+bh).

    其中,Wxh∈Rd×h,Whh∈Rh×h,bh∈R1×h,ϕ函数是非线性激活函数。由于引入了Ht−1Whh,Ht能够捕捉截至当前时间步的序列的历史信息,就像是神经网络当前时间步的状态或记忆一样。由于Ht的计算基于Ht−1,上式的计算是循环的,使用循环计算的网络即循环神经网络(recurrent neural network)。

    在时间步t,输出层的输出为:

    Ot=HtWhq+bq.

    其中Whq∈Rh×q,bq∈R1×q。

    相关文章

      网友评论

          本文标题:2020-02-25

          本文链接:https://www.haomeiwen.com/subject/zhxcchtx.html