美文网首页
机器学习的应用层面

机器学习的应用层面

作者: 此间不留白 | 来源:发表于2019-10-17 17:17 被阅读0次

    测试集,训练集和验证集

    吴恩达深度学习课程
    课程2第一周学习笔记
    课程地址:https://mooc.study.163.com/learn/2001281003#/learn/announce

    深度学习的应用是一个高度迭代的过程,在这个迭代过程中,创建高质量的数据集(即训练集,测试集和验证集)有助于提高迭代效率。传统的机器学习算法,用到的数据集不是很大,比如有1000条数据,10000条数据,传统的机器学习算法中,将整个数据集按照6:2:2的比例划分为训练集,测试集和验证集,或者按照7:3的比例划分为验证集和测试集。但是在大数据时代,比如百万级别的数据,按照以上划分,显然是不合适的,实际上,百万级别的数据,使用一万条数据进行评估和验证已经足够,验证集和测试集所占的比例会逐渐下降,通常情况下,训练集所占比例约为98%,验证集和测试集所占比例可能会达到1%1%,或者训练集所占比例达到99.5,验证集和测试集所占比例为0.25%0.25

    因为要利用验证集和测试集评估不同的模型,所以尽可能使验证集和测试机的数据来自同一分布。为了获取大量的训练数据,可以使训练集和测试集来自不同的分布。遵循这个经验法则,可以使得机器学习的算法的性能更好。

    如果要对神经网络做出无偏估计,可以不用测试集。没有测试集,我们要做的就是在训练集上训练,在验证集上评估这些模型。

    偏差和方差

    构建的模型并不能很好的拟合模型,具有高偏差,我们称这种情况为欠拟合,相反,如果一个模型能够在训练集上很好的拟合数据,而在验证集或者测试集上误差较大,这种情况被称之为高方差,数据过拟合。关于数据集,方差和偏差的关系可以用如下表格表示:

    训练集误差 验证集误差 结果分析
    1% 11% 高方差,过拟合
    15% 16% 高偏差,欠拟合
    15% 30% 高方差,高偏差
    0.5% 1% 低偏差,低方差

    正则化

    深度学习过拟合的消除,通常有两种办法,一种是正则化,另一种是准备更多数据。正则化的消除过拟合的原理如下。

    以逻辑回归为例,最小化成本函数,wb是逻辑回归的两个参数,w是一个多维度矢量参数,b是一个实数,在正则化的实现过程中,只关心w参数。

    正则化损失函数的实现公式如下所示:
    minJ(w,b) = \frac{1}{m}\sum_{j=1}^{m} L(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}||w||_2^{2} \tag{1}

    ||w||_2^{2} = \sum_{j=1}^{n_x}w_j^{2} = w^Tw\tag{2}

    公式(2)中的正则化实现方式被称之为L2正则化,用到了欧几里德法线,被称为向量参数wL2范数。

    L2正则化是最常用的正则化实现方式,与之对应的L1正则化的实现方式如下所示,:
    L1: \frac{\lambda}{m}\sum_{j=1}^{n_x}|w| \tag{3}

    \lambda是一个正则化参数,通常使用交叉验证集来配置这个参数,一般将这个参数设置为最小值,用来避免过拟合。\lambda参数也是我们需要调整的一个超参数。

    在神经网络中,带正则项的损失函数,公式如下所示:
    J(w^{[1]},w^{[2]}…w^{[L]},b) = \frac{1}{m}\sum_{i=1}^{L}L(\hat{y^{(i)}}-y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||^2 \tag{4}

    ||w^{[l]}||_F^2 = \sum_{i=1}^{n^{[L]}}\sum_{j=1}^{n^{[L-1]}}(w_{ij}^{[L]})^2 \tag{5}

    在神经网络中,W表示的是一个n^{[L]}×n^{[L-1]}的参数矩阵,该范数被定义为矩阵中所有元素的平方求和,该范数被称之为弗罗贝尼乌斯范数,用下标F标注。

    利用反向传播函数计算dW的值并更新权重参数,其损失函数多了一项正则项,则其对参数w的求导,也多了正则项,对正则项求导,其结果为\frac{\lambda}{m}w^{[l]},则参数的更新可以用如下表达式所示:

    w^{[l]} :=w^{[l]} - \alpha \frac{\lambda}{m}w^{[l]} - \alpha (backpro)\tag{6}

    其中backpro表示反向传播给出的dw值,可以看出,在计算过程中,有:
    w^{[l]} = w^{[l]}(1-\frac{\alpha \lambda}{m}) \tag{7}

    该公式表示,系数总是小于1,所以表示参数矩阵W的值在不断变小,L_2范数正则化也被称之为权重衰减。

    正则化能够消除过拟合的原因

    由公式(7)可知,当正则化参数\lambda设置的足够大时,权重参数参数w会接近于0,等价与基本上消除了神经网络中隐藏层的影响,多层神经网络就会变成一个浅层神经网络,整个神经网络的就会呈现出高偏差的状态。即也就是通过调整参数\lambda的值,正好能够消除高方差,也能避免高偏差,网络性能达到最好。

    假设,神经网络隐藏层的激活函数是tanh(z)函数(z = w^Tx+b),如该函数图像所示,只要z足够小,激活函数的取值范围接近于线性状态,如果隐藏层的激活函数都是线性的,那么等价于整个网络的隐藏层都是线性的,一个深层的神经网络就可以等价为浅层的网络,可能会造成高偏差,并且导致欠拟合,不能用来用来实现较为复杂的分类。

    dropout 正则化

    在深度学习中,除了常用到的L_2正则化之外,常常用到另外一种正则化,称之为dropout 正则化(随机失活正则化)。

    假设有一个如下图所示的神经网络,存在过拟合,利用dropout正则化消除过拟合的过程可以简单的描述为;

    • 遍历神经网络的每一层节点
    • 随机设置需要消除节点和保留节点的概率值
    • 根据概率消除一些节点,删掉这些节点的数据(包括权重参数等),得到一个更小的神经网络,利用反向传播算法训练这个更为精简的神经网络。

    实施dropout正则化的方法有好多种,最常用到的方法是反向随机失活(inverted dropout),以一个3层的神经网络为例,实现反向随机失活的步骤可以如下所示:

    • 定义一个随机向量dd^{[3]}表示一个三层的dropout向量
      用代码表示如下所示:
    d3 = np.random.rand(a3.shape[0],a3.shape[1])
    
    • 判断d_3是否小于keep_probkeep_porb是一个具体数字,表示保留某个隐藏层单元的概率。
    • 从第三层获取激活函数a^{[3]},计算方式如下所示:
    a3 = np.multiply(a3,d3)
    

    以上表达式表示将d_3中等于0的元素输出,各个元素等于0的概率为1-keep_prob,即使得d_3中的0与a_3中相对应的元素归零。

    • 最后,继续扩展a^{[3]},即有:
    a3 /= keep_prod
    

    注意: 实现以上步骤的原因是:假设第3层的单元数量是50,keep_prob的值为0.8,意味着在这一层删除或者归零的单元数为50×(1-0.8)=10个,对于神经网络第四层有:z^{[4]}= w^{[4]}a^{[3]}+b^{[4]},在dropout的实现过程中,a^{[3]}中有20%的元素被归零了,为了不影响z^{[4]}的期望值,a^{[3]}/0.8将会弥补或者修正被dropout的20%.

    dropout正则化的理解

    对于dropout正则化作用的理解有:

    • 不依赖于任何一个特征,因为该单元的输入可能会被随时清除,通过这种方式的传播,dropout会产生收缩权重的平方范数的效果,与L2正则化的效果类似。

    • 神经网络中每个单元的工作就是输入并生成一系列有意义的输出,通过dropout,该单元的输入可能会被清除,因为某个单元的输入可能会被随时清除,所以,不愿给每个节点的输入加入太多权重,通过这种的方式的传播,dropout产生手摧权重平方范数的效果,压缩权重,并完成一些预防过拟合的外层正则化。

    应用dropout正则化的技巧

    如下图所示,该网络第二层和第三层隐藏层的单元数目较多,而后面几层单元数目较小,对于这一情况,通常会选择将单元数较多的隐藏层的keep_prob设置较小,单元数较少的隐藏层设置较大。即也就是根据不同层产生不同过拟合的效果来调整keep_prob的值。

    其他正则化方法

    除了以上两种正则化方法之外,常用来避免网络过拟合的方法还有以下几种:

    数据扩增

    可以通过扩充数据来避免过拟合,计算机视觉中,扩充数据花费可能太高,可以将原有图像翻转,或者将原图旋转或者随意放大并裁剪。在字符识别中,可以将已有字符随意扭曲或者旋转来扩充训练数据。


    early stopping

    另一种避免正则化的方法是early stopping术语称之为提前停止训练神经网络。在训练过程中,刚开始迭代时,训练集误差和验证集误差一直在下降,但是随着迭代过程的不断进行,经过某一点之后,验证·集误差可能会开始上升,通常会选择该点的参数作为神经网络的参数。

    early stopping提前停止了训练,也就意味着提前停止了优化了优化损失函数,损失函数可能不会取得最小值。其优点就是只通过一次梯度下降,就可以得到w的较小值,而不用像L2正则化一样,通过多次尝试超参数\lambda的值。

    归一化输入

    归一化的步骤

    神经网络中,能够加速神经网络训练速度的一个有效方法就是归一化输入(标准化),可以分为两个步骤

    • 零均值
      零均值化用数学表达式表示即也就是:
      \mu =\frac{1}{m}\sum_{i}^{m} x^{(i)} \tag{8}
      x等于每个训练数据减去均值\mu,完成这一步之后,以二维数据为例,训练数据的变化如下图所示:
    • 归一化方差
      训练数据的方差的计算公式如下所示:
      \sigma^2 = \frac{1}{m} \sum_{i=1}^{m}(x^{(i)})^2 \tag{9}

    有了以上步骤之后,对于归一化的过程可以直接用如下公式表示:
    x_{norm} = \frac{x-\mu}{\sigma } \tag{10}

    完成以上步骤之后,整个数据均为的分布在以原点为中心的平面上,如下图所示:

    使用归一化的原因

    利用归一化能够使得代价函数的分布更加均匀,并且能够训练速度更快。特征范围在(-1,1)(0,1000)优化起来更加简单快速。

    梯度消失与梯度爆炸

    假设训练一个深层的神经网络,这个神经网络包含多个隐藏层,每一个隐藏层的神经的权重参数用w^{[1]},w^{[2]}……w^{[L]}表示,并且每一层的激活函数都是线性激活函数g(z) =g(w^{[l]}x),则输出可以简化为如下表达式:
    y = w^{[1]}w^{[2]}……w^{[L-1]}w^{[L]}x \tag{10}

    假设设定权重参数w^{[l]}
    \left[ \begin{matrix} 1.5& 0 \\ 0 & 1.5 \end{matrix} \right]

    根据公式(10)可知,网络输出会是1.5^{[L]},随着神经网络层数的增加,其输出会呈现指数级别的增长,这种情况下,梯度下降的过程会变得非常缓慢。

    与之相对应的另一种情况是,假定参数矩阵w^{[l]}是如下矩阵
    \left[ \begin{matrix} 0.5& 0 \\ 0 & 0.5 \end{matrix} \right]
    这种情况会导致神经网络的输出为\frac{1}{2^L},随着神经网络层数的增加,输出会变得越来越小,会导致,梯度下降的过程中,每一步的梯度的下降非常小,梯度下降会花费非常多的时间。这种情况可以称之为梯度消失。

    神经网络的权重初始化

    对于多层神经网络,其输入,权重参数和特征之间的关系可以用如下公式表示,n表示神经元输入特征数量:
    z= w^{[1]}x_1 + w^{[2]}x_2 + ……w^{[n]}x_n \tag{11}

    对于n层神经网络,为了保证输入z的值较小,或者保持不变,随着n的增加,势必要令w_i变小,一般情况下,最合理的设置方法就是使得w_i = \frac{1}{n}

    所以,综上,神经网络某一层权重的初始化过程,可以用如下代码实现:

    wl^{[l]}= np.random.randn(shape)*np.sqrt(1/n^{[l-1]})

    注意:np.random.randn() 表示生成符合高斯分布的随机变量。

    参数设置两个技巧:

    • 如果激活函数是tanh(z), 一般而言选择\sqrt{\frac{1}{n^{[l-1]}}}

    • 如果激活函数是relu(z),可以选择\sqrt{\frac{2}{n^{[l-1]}}}

    梯度检验

    梯度检验能够有效减少神经网络传播过程中的bug,执行梯度检验的过程可以如下步骤所示:

    • 将参数w^{[1]},b^{[1]},w^{[2]},b^{[2]}……w^{[l]},b^{[l]}转换成一个向量\theta,此时对于损失函数会变成:
      J(w^{[1]},b^{[1]},w^{[2]},b^{[2]}……w^{[l]},b^{[l]}) = J(\theta)

    • dw^{[1]},d^{[1]}……dw^{[l]},db^{[l]} 转换成向量d\theta

    众所周知,对于函数f(x)而言,x点导数的数学定义就是:
    f'(x) = \frac{f(x+\epsilon)-f(x-\epsilon)}{2\epsilon} \tag{12}
    \epsilon是一个极小值。

    根据导数或者梯度的数学原理,导数或者梯度表示一种数值逼近,如公式(12)所示,表示双边误差,比单边误差具有更高的精确度。

    • 利用循环,计算向量\theta中每个元素\theta_i 的双边误差,如下公式所示:

    d\theta_{approx}[i] = \frac{J(\theta_1,\theta_2,…\theta_i+\epsilon…)-J(\theta_1,\theta_2,…\theta_i-\epsilon…)}{2\epsilon} \tag{13}

    • 依次计算d\theta_i = \frac{\partial J}{\partial \theta_i},并比较其值是否接近,根据欧几里德范数比较,如公式(14)所示。

    比较两者是否接近的公式可以如下所示: \epsilon =\frac{||d\theta_{approx[i]} - d\theta_i||_2}{||d\theta_{approx[i]} + d\theta_i||_2} \tag{14}

    注意:欧几里德范数{||d\theta_{approx[i]} - d\theta_i||_2}表示求取两者误差平方之和,再求平方根,公式(14)中的分母能够有效预防这些向量太小或者太大。

    一般而言,通过计算得到的\epsilon \leq 10^{-7},表示算法运行正常。

    梯度检验的注意事项

    实施梯度检验的过程中,有以下几点注意事项:

    • 不要在训练过程中使用梯度检验,因为梯度检验需要利用反向传播算法计算每一个d\theta,会消耗大量的时间和资源。

    • 如果梯度检验失败,要检查所有项,查找不同的i值,查明具体是哪一项d\theta[i]d_{approx}[i]的差值较大,从而更加精确的定位bug

    • 实施梯度检验的过程中,不要忘掉正则项,因为正则项也包括了参数wb

    • 不要同时使用梯度检验和dropout,因为dropout可能会随时消除隐藏层单元的一些子集,很难计算损失函数J.

    相关文章

      网友评论

          本文标题:机器学习的应用层面

          本文链接:https://www.haomeiwen.com/subject/ojfnpctx.html