神经网络经验超参数的理论分析

作者: dreamsfuture | 来源:发表于2018-02-10 08:40 被阅读0次

神经网络经验超参数的理论分析
【深度学习实践】补充01. 批量大小对于数据集收敛的影响
深度学习网络调参技巧-资料汇总
人人都能懂的机器学习——用Keras搭建人工神经网络09
Batch Normalization
超参数调试，正则化和优化
吴恩达深度学习笔记(26)-神经网络中的参数和超参数
第七章超参数调试、Batch 正则化和程序框架
深度学习入门--超参数优化
改善深层神经网络-第三周-吴恩达 Deep Learning S

隐藏层的数目如何确定？

这个问题换成理论来讲:函数逼近程度如何确定？

假设隐藏层数目为m,数据集数据量为N。

①最佳逼近精确度:m要足够大

②逼近的拟合程度:m/N要足够小

所以，隐藏层m越大越好，但是数据集不大，没用，因为会过拟合！

模型训练到什么时候该停止？

理论分析：停止训练，也就是停止学习，理论上就是收敛。

经验分析：经常用一个training steps值表示算法迭代的次数。

收敛准则：

①当梯度向量的欧几里得范数达到充分小的梯度阈值，反向传播算法收敛

②当每一个回个的均方误差变化绝对小(0.1%-1%)，反向传播算法收敛

学习率如何确定和调整？

delta法则中加入动量项，可以让梯度下降的快而且稳定

经验分析：学习率刚开始要快，到了中后期就该变慢。如果学习率一直不变容易导致波动太大，不收敛，形成震荡，不稳定。

理论分析：待续

初始化参数要求？

①权值初始化：均值为0的均匀分布

原因：

⑴权值初始化过大，网络的神经元很可能会趋于饱和。

why?

梯度一般不是很大，权值更新非常慢，导致饱和。

⑵权值初始化过小，反向传播算法可能就在误差曲面的原点的一个平缓的区域内进行。

why?

鞍点如果是原点(sigmoid激活函数可能性更大)，这也是一个稳定点，该点与鞍正交的误差曲面的曲率为负，而沿着鞍方向为正。

网友评论

本文标题：神经网络经验超参数的理论分析

本文链接：https://www.haomeiwen.com/subject/rplctftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

神经网络经验超参数的理论分析

隐藏层的数目如何确定？

模型训练到什么时候该停止？

学习率如何确定和调整？

初始化参数要求？

相关文章