@article{he2015delving,
title={Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
pages={1026--1034},
year={2015}}
概
本文介绍了一种PReLU的激活函数和Kaiming的参数初始化方法.
主要内容
PReLU
在这里插入图片描述
其中是作为网络的参数进行训练的.
等价于
特别的, 可以一层的节点都用同一个.
Kaiming 初始化
Forward case
在卷积层中时, 是的展开, 故, 而, (每一行都可以视作一个kernel), 并记.
则
假设与(注意没粗体, 表示中的某个元素)相互独立, 且采样自一个均值为0的对称分布之中.
则
除非, , 但对于ReLu, 或者 PReLU来说这个性质是不成立的.
如果我们令, 易证
其中是ReLU, 若是PReLU,
下面用ReLU分析, PReLU是类似的.
故
自然我们希望
Backward case
表示损失函数观念与的导数, 这里的与之前提到的有出入, 这里需要用到卷积的梯度回传, 三言两语讲不清, 是的一个重排.
因为, 所以
假设与相互独立, 所以
若为ReLU:
若为PReLU:
下面以为ReLU为例, PReLU类似
这里为的长度.
和前向的一样, 我们希望一样, 需要
是实际中,我们前向后向可以任选一个(因为误差不会累积).
网友评论