美文网首页
【论文阅读】高速神经网络Highway Networks

【论文阅读】高速神经网络Highway Networks

作者: 神游物外的轮子 | 来源:发表于2019-09-25 14:53 被阅读0次

论文:Highway Networks

主要问题

作者提出了一种叫做Highway networks的架构,用来解决基于梯度的学习模型在拥有较多层数时,难以训练的问题。

模型描述

对于一个朴素的包含L层的前馈神经网络,第l(l \in \{1, 2,...,L\})对输入x_l进行非线性转化H(参数为W_{H, l}),得到输入y_l。简化下标和偏移量之后,形式如下:
y = H(x, W_H)
对于Highway networks,额外增加两个非线性转化T(x, W_T)C(x, W_C),新形式如下:
y = H(x, W_H) \cdot T(x, W_T) + x \cdot C(x, W_C)
其中T称作转换门,C称作携带门,它们决定了输出由非线性变化和原始输入组成的比例

可以将假设C = 1 - T来得到更加简单的形式:
y = H(x, W_H) \cdot T(x, W_T) + x \cdot (1-T(x, W_T) )

模型优点

增加了门结构的形式在计算过程中会比原本的形式更加灵活:
y = \begin{cases} x, &if\ T(x, W_T) = 0, \\ H(x, W_H) &if\ T(x, W_T) = 1, \end{cases}
可以发现T会学习当前状态下是否应该使用原始输入,或者使用转换后的结果作为输出。

对于梯度也有类似的结果:
\frac{ \partial y } {\partial x} = \begin{cases} I, & if \ T(x, W_T) = 0, \\ H^{'}(x, W_H) , & if \ T(x, W_T) = 1, \end{cases}

注意事项

根据Highway networks的公式,要求x, y, H, T的维度一致,如果需要修改形状,可以通过子采样或者填充零的方式,也可以增加一层神经网络(不包含Highway),进行维度转换。

未理解知识

  1. 段落2.1中改变向量维度的操作sub-sampling具体是指?关于权重矩阵的weight-sharing和local receptive fields意思是?
  2. 段落2.2关于门偏移量为负的说明是想说什么?
  3. 段落3.1中提到的variance-preserving初始化技巧是指?模型训练中提到的momentum概念的含义是?
  4. 表格1中提到的Fitnets以及maxout networks是指?
  5. 段落5中credit assignment是指?

相关文章

网友评论

      本文标题:【论文阅读】高速神经网络Highway Networks

      本文链接:https://www.haomeiwen.com/subject/xarbuctx.html