深度学习参数初始化器过程推导 Glorot-Xavier MSR

深度学习参数初始化器过程推导 Glorot-Xavier MSR

作者: 以后叫我老牛 | 来源:发表于2019-11-22 10:53 被阅读0次

Glorot初始化方法

Kaiming初始化

Batch Normalization

初始化器的推导依赖一下公式的推导

推导：

其中ni表示输入个数。

根据概率统计知识我们有下面的方差公式：

特别的，当我们假设输入和权重都是0均值时（目前有了BN之后，这一点也较容易满足），上式可以简化为：

进一步假设输入x和权重w独立同分布，则有：

于是，为了保证输入与输出方差一致，则应该有：

对于一个多层的网络，某一层的方差可以用累积的形式表达：

特别的，反向传播计算梯度时同样具有类似的形式：

综上，为了保证前向传播和反向传播时每一层的方差一致，应满足：

但是，实际当中输入与输出的个数往往不相等，于是为了均衡考量，最终我们的权重方差应满足：

学过概率统计的都知道 [a,b] 间的均匀分布的方差为：

（这个可以用一维区间【a,b】积分算）

因此，Xavier初始化的实现就是下面的均匀分布：

以上就是Glorot-Xavier 初始化过程，实际用到的就是最后面这个公式

MSRA -kaiming 初始化推导如下：

首先，用下式表示第L层卷积：

则其方差为：（假设x和w独立，且各自的每一个元素都同分布，即下式中的n_l表示输入元素个数，x_l和w_l都表示单个元素）

当权重W满足0均值时，上述方差可以进一步写为：

对于ReLU激活函数，我们有：（其中f是激活函数）

带入之前的方差公式则有：

由上式易知，为了使每一层数据的方差保持一致，则权重应满足：

的不同，就是它是只考虑前向传播或者只考虑反向传播的，然后使用高斯分布，而没有综合考虑

以上就是深度学习参数初始化器的过程推导

写在最后，虽然是在实际用的时候是只用最后的公式，但是推导过程才是我们算法工作者关注的，因为最后公式是给施工用的

相关文章

网友评论

本文标题：深度学习参数初始化器过程推导 Glorot-Xavier MSR

本文链接：https://www.haomeiwen.com/subject/aeitwctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|深度学习参数初始化器过程推导 Glorot-Xavier MSR|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！