神经网络超参数选择

作者: 大脸猫猫脸大 | 来源:发表于2019-10-11 17:56 被阅读0次

Batch Normalization
神经网络超参数选择
神经网络超参数选择
人人都能懂的机器学习——用Keras搭建人工神经网络09
DL4J中文文档/调优与训练/故障排查
超参数调试，正则化和优化
第七章超参数调试、Batch 正则化和程序框架
吴恩达深度学习笔记(26)-神经网络中的参数和超参数
深度学习入门--超参数优化
神经网络和深度学习 - Chapter7 超参数调优

1. 学习率

1.1 是什么

深度学习模型通常由随机梯度下降算法进行训练。随机梯度下降算法有许多变形：例如 Adam、RMSProp、Adagrad 等等。这些算法都需要你设置学习率。学习率决定了在一个小批量（mini-batch）中权重在梯度方向要移动多远。

1.2 极端值的影响

如果学习率很低，训练会变得更加可靠，但是优化会耗费较长的时间，因为朝向损失函数最小值的每个步长很小。
如果学习率很高，训练可能根本不会收敛，损失函数一直处于波动中，甚至会发散。权重的改变量可能非常大，使得优化越过最小值，使得损失函数变得更糟。

1.3 如何设置

训练应当从相对较大的学习率开始。这是因为在开始时，初始的随机权重远离最优值。在训练过程中，学习率应当下降，以允许细粒度的权重更新。

参考：https://www.jiqizhixin.com/articles/2017-11-17-2

2. 批次大小batch_size

2.1 是什么

批次大小是每一次训练神经网络送入模型的样本数。在合理的范围之内，越大的 batch size 使下降方向越准确，震荡越小，通常取值为[16,32,64,128]。

2.2 极端值影响

Batch_Size=全部数据集缺点：
　 1) 随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行。
　 2) 以 Rprop 的方式迭代，会由于各个 Batch 之间的采样差异性，各次梯度修正值相互抵消，无法修正。
Batch_Size = 1缺点：
使用在线学习，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

2.3 如何设置

在合理范围内，增大 Batch_Size 有何好处？
1) 内存利用率提高了，大矩阵乘法的并行化效率提高。
2) 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
3) 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

盲目增大 Batch_Size 有何坏处？
　 1) 内存利用率提高了，但是内存容量可能撑不住了。
　2) 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
　 3) Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

参考：https://blog.csdn.net/juronghui/article/details/78612653

3. 迭代次数

迭代次数是指整个训练集输入到神经网络进行训练的次数，当测试错误率和训练错误率相差较小，且测试准确率趋于稳定时（达到最优），可认为当前迭代次数合适；当测试错误率先变小后变大时则说明迭代次数过大了，需要减小迭代次数，否则容易出现过拟合。

5. 激活函数

用激活函数给神经网络加入一些非线性因素，使得网络可以更好地解决较为复杂的问题。参考：https://blog.csdn.net/tyhj_sf/article/details/79932893

5.1 sigmoid

它能够把输入的连续实值变换为0和1之间的输出。
缺点：
　1) 在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。
　2) Sigmoid 的 output 不是0均值，使得收敛缓慢。batch的输入能缓解这个问题。

5.2 tanh

它解决了Sigmoid函数的不是zero-centered输出问题，然而梯度消失的问题和幂运算的问题仍然存在。
tanh函数具有中心对称性，适合于有对称性的二分类

5.3 relu

虽然简单，但却是近几年的重要成果，有以下几大优点：
1）解决了梯度消散问题 (在正区间)
2）计算速度非常快，只需要判断输入是否大于0
3）收敛速度远快于sigmoid和tanh
ReLU也有几个需要特别注意的问题：
1）ReLU的输出不是zero-centered
2）Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

5.4 relu改进版

为了解决Dead ReLU Problem，提出了将ReLU的前半段设为αx而非0，如PReLU。

5.5 如何选择激活函数

1）深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。所以，总体上来讲，训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。
2）如果使用 ReLU，那么一定要小心设置 learning rate，而且要注意不要让网络出现很多 “dead” 神经元，如果这个问题不好解决，那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
3）最好不要用 sigmoid，你可以试试 tanh，不过可以预期它的效果会比不上 ReLU 和 Maxout.

3. 优化器optimizer

公式：https://www.cnblogs.com/xiaobingqianrui/p/10756046.html
优化器比较：https://blog.csdn.net/weixin_40170902/article/details/80092628

SGD:计算一个batch内的loss均值，利用均值求梯度下降方向。训练速度较快。缺点在于SGD在随机选择梯度的同时会引入噪声，使得权值更新的方向不一定正确。此外，SGD也没能单独克服局部最优解的问题。
动量优化－Momentum:主要思想是引入一个积攒历史梯度信息动量来加速SGD，将上一批次的梯度与当前梯度的加权作为新的梯度。
动量主要解决SGD的两个问题：一是随机梯度的方法（引入的噪声）；二是Hessian矩阵病态问题（可以理解为SGD在收敛过程中和正确梯度相比来回摆动比较大的问题）。
理解策略为：由于当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。
动量优化－NAG:牛顿加速梯度（NAG, Nesterov accelerated gradient）算法，是Momentum动量算法的变种，往标准动量中添加了一个校正因子。
理解策略：先按照上次的梯度走两步，然后再停下来思考接下来行进的方向。
自适应－AdaGrad算法：具有代价函数最大梯度的参数相应地有个快速下降的学习率，而具有小梯度的参数在学习率上有相对较小的下降。相当于陡坡处慢点走，平地上迈大步。
Adagrad 的主要优势在于不需要人为的调节学习率，它可以自动调节；缺点在于，随着迭代次数增多，学习率会越来越小，最终会趋近于0，所以训练神经网络时很少使用该优化器。
自适应－RMSProp算法：梯度积累为指数加权的移动平均，使得其在非凸设定下效果更好。是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。
自适应－AdaDelta：AdaGrad算法和RMSProp算法都需要指定全局学习率。AdaDelta不需要。
在模型训练的初期和中期，AdaDelta表现很好，加速效果不错，训练速度快。
在模型训练的后期，模型会反复地在局部最小值附近抖动。
比较
① 在运行速度方面
两个动量优化器Momentum和NAG的速度最快，其次是三个自适应学习率优化器AdaGrad、AdaDelta以及RMSProp，最慢的则是SGD。
② 在收敛轨迹方面
1) 两个动量优化器虽然运行速度很快，但是初中期走了很长的”岔路”。
2) 三个自适应优化器中，Adagrad初期走了岔路，但后来迅速地调整了过来，但相比其他两个走的路最长；AdaDelta和RMSprop的运行轨迹差不多，但在快接近目标的时候，RMSProp会发生很明显的抖动。
3) SGD相比于其他优化器，走的路径是最短的，路子也比较正。

Batch Normalization
Batch Normalization 会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的...
神经网络超参数选择
1.宽泛策略前期你应该从实验中尽可能早的获得快速反馈(简化问题和架构),这能够将进度加快，因为你能够更快地找到传...
神经网络超参数选择
1. 学习率 1.1 是什么深度学习模型通常由随机梯度下降算法进行训练。随机梯度下降算法有许多变形：例如 Ada...
人人都能懂的机器学习——用Keras搭建人工神经网络09
微调神经网络超参数神经网络的灵活性其实也是它的缺点：有太多的超参数需要调整。神经网络的灵活性可以让我们使用任何想...
DL4J中文文档/调优与训练/故障排查
神经网络训练的故障排查神经网络很难调优。如果网络超参数选择不当，网络学习可能会慢，或者根本不学习。本页旨在提供在...
超参数调试，正则化和优化
参数调试技巧神经网络涉及了许多不同的超参数，这些参数包括神经网络层数，学习率和adam优化算法参数等，一些系统性...
第七章超参数调试、Batch 正则化和程序框架
1.调试处理神经网络会涉及很多不同超参数的设置，超参数调试过程有一些技巧。如图7.1，超参数有学习率α、mom...
吴恩达深度学习笔记(26)-神经网络中的参数和超参数
参数VS超参数（Parameters vs Hyperparameters）想要你的深度神经网络起很好的效果，你...
深度学习入门--超参数优化
神经网络中，除了权重偏置等参数，超参数也是一个很重要的概念。权重偏置可以通过学习自动更新，而超参数必须人为设定。 ...
神经网络和深度学习 - Chapter7 超参数调优
超参数调优：Grid Search vs 随机搜索神经网络中参数主要包括：学习率、优化器、batch size等...