美文网首页
[Kaiming]Delving Deep into Recti

[Kaiming]Delving Deep into Recti

作者: 馒头and花卷 | 来源:发表于2020-04-23 13:19 被阅读0次

He K, Zhang X, Ren S, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification[C]. international conference on computer vision, 2015: 1026-1034.

@article{he2015delving,
title={Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
pages={1026--1034},
year={2015}}

本文介绍了一种PReLU的激活函数和Kaiming的参数初始化方法.

主要内容

PReLU

在这里插入图片描述

f(y_i) = \left \{ \begin{array}{ll} y_i, & y_i >0, \\ a_i y_i, & y_i \le 0. \end{array} \right.
其中a_i是作为网络的参数进行训练的.
等价于
f(y_i)=\max(0, y_i) + a_i \min (0,y_i).
特别的, 可以一层的节点都用同一个a.

Kaiming 初始化

Forward case

\mathbf{y}_l=W_l\mathbf{x}_l+\mathbf{b}_l,
在卷积层中时, \mathbf{x}_lk\times k \times c的展开, 故\mathrm{x}_l\in \mathbb{R}^{k^2c}, 而\mathbf{y}_l \in \mathbb{R}^{d}, W_l \in \mathbb{R^{d \times k^2c}}(每一行都可以视作一个kernel), 并记n=k^2c.

\mathbf{x}_l=f(\mathbf{y}_{l-1}),

c_l = d_{l-1}.

在这里插入图片描述

假设w_lx_l(注意没粗体, 表示\mathbf{w}_l, \mathbf{x}_l中的某个元素)相互独立, 且w_l采样自一个均值为0的对称分布之中.


Var[y_l] = n_l Var [w_lx_l] = n_lVar[w_l]E[x_l^2],
除非E[x_l]=0, Var[y_l] = n_lVar[w_l]Var[x_l], 但对于ReLu, 或者 PReLU来说这个性质是不成立的.

如果我们令b_{l-1}=0, 易证
E[x_l^2] = \frac{1}{2} Var[y_{l-1}],
其中f是ReLU, 若f是PReLU,
E[x_l^2] = \frac{1+a^2}{2} Var[y_{l-1}].
下面用ReLU分析, PReLU是类似的.


Var[y_l] = \frac{1}{2} n_l ar[w_l]Var[y_{l-1}],
自然我们希望
Var[y_i]=Var[y_j] \Rightarrow \frac{1}{2}n_l Var[w_l]=1, \forall l.

Backward case

\tag{13} \Delta \mathbf{x}_l = \hat{W}_l \Delta \mathbf{y}_l,
\Delta \mathbf{x}_l表示损失函数观念与\mathbf{x}_l的导数, 这里的\mathbf{y}_l与之前提到的\mathbf{y}_l有出入, 这里需要用到卷积的梯度回传, 三言两语讲不清, \hat{W}_lW_l的一个重排.

因为\mathbf{x}_l=f(\mathbf{y}_{l-1}), 所以
\Delta y_l = f'(y_l) \Delta x_{l+1}.

假设f'(y_l)\Delta x_{l+1}相互独立, 所以
E[\Delta y_l]=E[f'(y_l)] E[\Delta x_{l+1}] = 0,
f为ReLU:
E[(\Delta y_l)^2] = Var[\Delta y_l] = \frac{1}{2}Var[\Delta x_{l+1}].
f为PReLU:
E[(\Delta y_l)^2] = Var[\Delta y_l] = \frac{1+a^2}{2}Var[\Delta x_{l+1}].

下面以f为ReLU为例, PReLU类似

Var[\Delta x_l] = \hat{n}_l Var[w_l] Var[\Delta y_l] = \frac{1}{2} \hat{n}_l Var[w_l] Var[\Delta x_{l+1}],
这里\hat{n}_l=k^2d\mathbf{y}_l的长度.

和前向的一样, 我们希望Var[\Delta x_l]一样, 需要
\frac{1}{2}\hat{n}_l Var[w_l]=1, \forall l.

是实际中,我们前向后向可以任选一个(因为误差不会累积).

相关文章

网友评论

      本文标题:[Kaiming]Delving Deep into Recti

      本文链接:https://www.haomeiwen.com/subject/craoihtx.html