Long Short-Term Memory Over Tree

作者: ltochange | 来源:发表于2021-07-21 19:28 被阅读0次

Long Short-Term Memory Over Tree
循环神经网络进阶
第三次打卡-2020-02-16
LSTM内部结构-我彻底明白了
2018-04-09 第三周
LSTM学习笔记
论文解读-Long Short-Term Memory as a
DIY“天气预报” | LSTM预测时间序列
LSTM
CrazyMemory-FunGame

这里首先要明白两种网络：

recursive neural network 递归神经网络：网络是定义在递归树结构上，每一个树结点是从它的孩子计算出来的向量。叶子节点和中间节点自底向上的组合。
recurrent neural network 循环神经网络：链式结构，LSTM是循环神经网络的特例。

递归神经网络示例，来自论文Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

递归神经网络

句子的语义并不是单词的线性的拼接；相反，句子有解析结构。

论文将LSTM扩展为树形结构，称为S-LSTM。S-LSTM可以看作是上述两种网络的结合。

利用S-LSTM来代替recursive neural network中的语义组合层，从而更好的学习不同文本片段组合之后的文本语义表征。

与先前的recurrent neural network相比，S-LSTM有避免梯度消失的潜力，通过树结构对长距离交互进行建模。

S-LSTM的例子

图中的圆圈和横线分别代表pass（通过）和block（阻滞）；这里通过LSTM中的遗忘门实现，是一个概率值。可以看出有多少个孩子结点，就有多少个遗忘门。孩子节点之间是没有交互的

在这里插入图片描述

S-LSTM模型

S-LSTM的记忆单元包括一个输入门，一个输出门，和多个遗忘门（数量和孩子的结点数相同），图中是给出的二叉树的结构，所以有两个遗忘门，此结构在现实生活中应该有很多应用，也可以把一般的树转化为二叉树。

在这里插入图片描述
对应的计算公式如下：

$i_{t} =\sigma(W_{h i}^{L} h_{t-1}^{L}+W_{h i}^{R} h_{t-1}^{R}+W_{c i}^{L} c_{t-1}^{L}+W_{c i}^{R} c_{t-1}^{R}+b_{i})$

$f_{t}^{L} =\sigma(W_{h f_{l}}^{L} h_{t-1}^{L}+W_{h f_{l}}^{R} h_{t-1}^{R}+W_{c f_{l}}^{L} c_{t-1}^{L}+W_{c f_{l}}^{R} c_{t-1}^{R}+b_{f_{l}})$

$f_{t}^{R} =\sigma(W_{h f_{r}}^{L} h_{t-1}^{L}+W_{h f_{r}}^{R} h_{t-1}^{R}+W_{c f_{r}}^{L} c_{t-1}^{L}+W_{c f_{r}}^{R} c_{t-1}^{R}+b_{f_{r}})$

$\begin{aligned} x_{t} &=W_{h x}^{L} h_{t-1}^{L}+W_{h x}^{R} h_{t-1}^{R}+b_{x} \\ c_{t} &=f_{t}^{L} \otimes c_{t-1}^{L}+f_{t}^{R} \otimes c_{t-1}^{R}+i_{t} \otimes \tanh \left(x_{t}\right) \\ o_{t} &=\sigma\left(W_{h o}^{L} h_{t-1}^{L}+W_{h o}^{R} h_{t-1}^{R}+W_{c o} c_{t}+b_{o}\right) \\ h_{t} &=o_{t} \otimes \tanh \left(c_{t}\right) \end{aligned}$

与标准的LSTM区别在于:

(1) 标准的LSTM将上一个时刻的 $h_{t-1}$ ， $c_{t-1}$ 作为 $t$ 时刻的输入，而S-LSTM需要考虑左右孩子结点。

(2) 标准的LSTM每个时刻都有当前时刻对应的输入 $x_{t}$ ,而S-LSTM对应的输入 $x_{t}$ 来自于左右孩子结点隐层状态

反向误差传递的时候要区分当前处理的节点是左孩子还是右孩子。反向传播的时候，先计算各个门的的导数，然后再计算权重的导数，做更新。

目标函数需要考虑输出结构，依赖问题规模，本文定义目标函数是最小化所有节点的交叉熵的和。

$E(\theta)=\sum_{i} \sum_{j} t_{j}^{i} \log y^{s e n_{i}}{ }_{j}+\lambda\|\theta\|_{2}^{2}$

实验

在Stanford Sentiment Tree Bank 进行情感五分类的实验，该数据集不仅包含句子级别的情感类别信息，还包含了短语级别的情感类别信息，详见介绍

在这里插入图片描述
RvNN 递归神经网络
RNTN 论文Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank
提出的模型

Long Short-Term Memory Over Tree
这里首先要明白两种网络： recursive neural network 递归神经网络：网络是定义在递归树结构上...
循环神经网络进阶
几种循环神经网络的变种: 门控循环神经网络 (GRU) 长短记忆 (long short-term memory,...
第三次打卡-2020-02-16
学习笔记一、循环神经网络 LSTM 长短期记忆（Long short-term memory, LSTM）是一种...
LSTM内部结构-我彻底明白了
原创：李孟启 1、背景 LSTM（Long Short-term Memory，LSTM）长短期记忆[1]，是一种...
2018-04-09 第三周
首先，介绍一下lstm神经网络：长短期记忆（英语：Long Short-Term Memory，LSTM）是一种...
LSTM学习笔记
本文公式显示效果不太好，可移步至LSTM学习笔记 Long Short-Term Memory（LSTM）是一种...
论文解读-Long Short-Term Memory as a
这是一篇自己以前看到的觉得挺有意思的文章。论文是 ACL 2018年上的一篇短文。论文分析了LSTM里面哪些部件是...
DIY“天气预报” | LSTM预测时间序列
LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络，适合用来处理时间...
LSTM
LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测...
CrazyMemory-FunGame
The game is mainly to test people's short-term memory, in...