深度学习中的参数初始化

作者: 娃哈哈雪碧 | 来源:发表于2017-05-24 22:53 被阅读0次

深度学习中的参数初始化
图像分类
JavaWeb
Pytorch随机种子设置及原理
【教程】Tensorflow vs PyTorch —— 自动求
深度神经网络超参数调节
如何让你的Python项目变得更优雅
【DL碎片4】深度学习中的的超参数调节
深度学习中的初始化方法
深度学习在移动端应用

初始点能决定

1.算法是否收敛，

2.算法遭遇数值困难

3.如果能收敛，收敛的有多快。

4.以及差不多的代价的初始点具有极大的泛化误差。

重要的特性：

A.破坏对称性（具有相同激活函数的两个隐藏单元连接到相同单元，那么这些单元必须具有不同的初始参数。一旦他们具有相同的初始参数，然后应用到确定性损失和模型的确定性学习算法将一直以相同的方式更新这两个单元。即使学习算法有着对于不同单元的更新的随机性，但最好还是保持不同，这样能确保没有输入模式丢失在前向传播的零空间和梯度模式丢失在后向传播的零空间。

当采用随机初始化时，可以确定一组不相同的基函数，虽然这经常导致明显的计算代价。常用的方法：

1.采用高墒分布来初始化使得分配不同单元不同的权重。（计算量小）

下面是3个最大熵分布：

1。限制条件：取值范围是 [a,b]

则最大熵分布：U[a,b]，也就是 [a,b] 上的均匀分布。

2。限制条件：取值范围是 [0,∞)，期望是 a

则最大熵分布：E(1/a)，也就是参数是 1/a 的指数分布。

3。限制条件：取值范围是 (-∞,∞)，期望是 a，方差是 b

则最大熵分布：N(a,b)，也就是参数是 a 和 b 的正态分布

2.使用Gram-Schmidt正交化权重矩阵使得分配的权重非常不同。（但计算量较大）！

B.更大的权重具有更强的破坏对称性的作用，有助于避免冗余单元。但太大的权重在前向传播的过程中会产生爆炸的值，对微小的扰动非常敏感，导致前向传播的过程中表现随机）另外使得激活函数产生饱和的值导致饱和单元的梯度完全消失。

网友评论

本文标题：深度学习中的参数初始化

本文链接：https://www.haomeiwen.com/subject/ygaoxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

深度学习中的参数初始化

相关文章