标准的LSTM网络以及公式

作者: ltochange | 来源:发表于2021-07-30 23:05 被阅读0次

标准的LSTM网络以及公式
【基础知识】LSTM-CRF
Tensorflow神经网络之LSTM
一文了解LSTM和GRU背后的秘密（绝对没有公式）
分别用CNN、GRU和LSTM实现时间序列预测（2019-04-
详解 LSTM
LSTM学习笔记
女生体重对照表，看看你属于哪个档次？
keras lstm return sequence参数理解
零基础入门深度学习(6) - 长短时记忆网络(LSTM)

LSTM使用一个特殊的存储记忆单元可以改善RNN的梯度消失问题，因此在许多自然语言处理任务中它比RNN有更好的性能。LSTM单元的基本结构如下图所示。

在这里插入图片描述
它由输入门

i_{t}

，忘记门

f_{t}

，输出门

o_{t}

，以及一个记忆单元

c_{t}

组成。

给定一个文本序列 $x=\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}, x_{t}$ 表示当前时间步 $t$ 的输入， $h_{t-1}$ 表示上一步LSTM的输出。

LSTM通过门更新记忆单元状态，添加或删除信息以保留与任务相关的内容。 $i_{t}$ 乘以候选值 $u_{t}$ 决定了添加到记忆单元的新的输入信息。 $f_{t}$ 乘以 $h_{t-1}$ 决定从记忆单元状态中移除的已有信息。输出门 $o_{t}$ 决定从记忆单元状态最终的输出信息。

输入门:
$i_{t}=\sigma\left(W^{(i)} x_{t}+U^{(i)} h_{t-1}+b^{(i)}\right)$
忘记门:
$f_{t}=\sigma\left(W^{(f)} x_{t}+U^{(f)} h_{t-1}+b^{(f)}\right)$
输出门:
$o_{t}=\sigma\left(W^{(o)} x_{t}+U^{(o)} h_{t-1}+b^{(o)}\right)$

记忆单元候选值：
$u_{t}=\tanh \left(W^{(u)} x_{t}+U^{(u)} h_{t-1}+b^{(u)}\right)$
记忆单元状态更新:
$c_{t}=i_{t} \odot u_{t}+f_{t} \odot c_{t-1}$
输出:
$h_{t}=o_{t} \odot \tanh \left(c_{t}\right)$