美文网首页
神经网络经验超参数的理论分析

神经网络经验超参数的理论分析

作者: dreamsfuture | 来源:发表于2018-02-10 08:40 被阅读0次

隐藏层的数目如何确定?

这个问题换成理论来讲:函数逼近程度如何确定?

假设隐藏层数目为m,数据集数据量为N。

①最佳逼近精确度:m要足够大

②逼近的拟合程度:m/N要足够小

所以,隐藏层m越大越好,但是数据集不大,没用,因为会过拟合!

模型训练到什么时候该停止?

理论分析:停止训练,也就是停止学习,理论上就是收敛。

经验分析:经常用一个training steps值表示算法迭代的次数。

收敛准则:

①当梯度向量的欧几里得范数达到充分小的梯度阈值,反向传播算法收敛

②当每一个回个的均方误差变化绝对小(0.1%-1%),反向传播算法收敛

学习率如何确定和调整?

delta法则中加入动量项,可以让梯度下降的快而且稳定

经验分析:学习率刚开始要快,到了中后期就该变慢。如果学习率一直不变容易导致波动太大,不收敛,形成震荡,不稳定。

理论分析:待续

初始化参数要求?

①权值初始化:均值为0的均匀分布

原因:

⑴权值初始化过大,网络的神经元很可能会趋于饱和。

why?

梯度一般不是很大,权值更新非常慢,导致饱和。

⑵权值初始化过小,反向传播算法可能就在误差曲面的原点的一个平缓的区域内进行。

why?

鞍点如果是原点(sigmoid激活函数可能性更大),这也是一个稳定点,该点与鞍正交的误差曲面的曲率为负,而沿着鞍方向为正。

相关文章

网友评论

      本文标题:神经网络经验超参数的理论分析

      本文链接:https://www.haomeiwen.com/subject/rplctftx.html