Hyperparameter tuning

Tuning process

image.png

对于大多数学习算法应用学习速率α 是需要调优的超参数中最重要的一个没有之一除了α 我接下来会调整的一些超参数也许是动量项 0.9是一个不错的默认值还会调整Mini-Batch的大小来保证最优化算法的运行效率我还经常调试隐藏单元数量就是那些用橙色圈起来的参数这三个是我认为重要性仅次于学习速率α的超参数在调整好这些超参数后接下来是重要性排在第三的超参数网络层数有时候对结果起到重要作用学习率衰减有时也一样当使用Adam优化算法时几乎不调节β1 β2和epsilon 我几乎都是用0.9 0.999和10^(-8)

image.png

Using an appropriate scale to pick hyperparameters
超参数值域的随机抽样能让你更有效地搜索超参数空间但实际上,随机抽样并不意味着在有效值范围内的均匀随机抽样(sampleing uniformly at random) 相反,更重要的是选取适当的尺度(scale) 用以研究这些超参数

image.png

那么你要做的就是在a~b的范围内均匀随机取样这个例子中的范围为-4~0 然后为alpha赋值为 10^r,r为随机取样的基于10的对数整理一下,要基于对数尺度取样,首先取得下限值取其对数得到a 再取上限值,取其对数得到b 然后在对数尺度上在10^a~10b范围内取样即在a~b的范围内均匀随机的取r值最后得到超参数值为10^r 这就是对数尺度上取样方法的实现

Hyperparameters tuning in practice: Pandas vs. Caviar

image.png

将它们分别称之为熊猫模式和鱼子酱模式那么如何挑选适合你的模式呢？这取决于有足够de计算资源来并行训练很多模型

Batch Normalization

在深度学习不断兴起的过程中最重要的创新之一是一种叫批量归一化 (Batch Normalization) 的算法它由Sergey Ioffe 和 Christian Szegedy提出可以让你的超参搜索变得很简单让你的神经网络变得更加具有鲁棒性可以让你的神经网络对于超参数的选择上不再那么敏感而且可以让你更容易地训练非常深的网络让我们来看看批量归一化是如何工作的

Normalizing activations in a network

image.png

在逻辑回归的例子里我们看到了对x1 x2 x3做归一化可以对对w和b的训练更有效所以这里的问题就是对于任何一个隐藏层我们是否也可以对a的值做归一化呢比如拿a2举例其实可以是任何一个隐藏层是否可以让w3 b3的训练更快呢因为a2是下一层的输入它影响着你对w[3] b[3]的训练这就是batch norm 简单的解释虽然在实际中我们归一化时针对的并不是a[2]而是z[2] 对于在激活函数之前做归一化，也就是指z[2] 还是在激活函数之后做归一化，也就是指a[2] 这一点上学术界还是有一些争议的实际中对z[2]做归一化要普遍的多也就是这里所呈现的方法我也推荐你把它作为默认的方法

image.png

这里加上ε 这样我们就把z归一化为一组均值0方差1的值了每一组z都是均值0方差1 但是我们并不希望所有的隐藏单元都是这样的也许本身它们的分布就有不同所以我们可以这么做 z tilde = γ * zi * norm + β 这里的γ和β值可以从你的模型中学习

image.png

Fitting Batch Norm into a neural network

image.png

注意z是由下面的步骤计算得出的也就是zL=wL * a(L-1)+bL但是BN算法所做的就是使用mini-batch并且归一化zL 来满足均值为0以及标准方差然后通过参数Beta和Gamma来重新调整这意味着不管bL的值为多少实际上都要被减去因为经过BN这一步我们将计算zL的均值并将其减去所以在mini-batch中对所有例子加上一个常量并不会改变什么因为无论我们加上什么常量它都会被减均值这一步给去除所以如果你使用BN算法你可以忽略该参数b 或者可以认为它永远等于0 所以参数就变为了 zL=wL * a(L-1) 然后我们计算归一化zL 并且计算(带波浪号的)z等于Gamma乘以zL加上Beta 我们最终使用该参数Beta L来决定 (带波浪号的)zL的均值它将在下一层中得到转发

image.png

Why does Batch Norm work?

image.png

Batch Norm at test tiem
如果你只有一个实例那么计算这一个实例的平均值和标准差显然是不合理的所以实际上该如何做呢？以便于我们在测试时使用我们的神经网络我们需要一种单独的方式来估算mu和sigma平方在批标准化的通常实现中我们是通过指数加权平均数来估算的

image.png

但是在测试时我们可能会需要处理单个测试实例那么处理的方式就是通过训练集来估算mu和sigma平方我们有很多方式来做估算理论上我们可以用我们最后的网络运行整个训练集来得到mu和sigma平方但是实际上人们通常会实现某种指数加权平均来记住在训练时见到的mu和sigma平方的值然后用这个指数加权平均数有时也被称作移动均值来得到mu和sigma平方的粗略的估算然后我们用这些mu和sigma平方的估算值在测试时进行比例缩放来获取隐藏神经元的Z值