美文网首页
Caffe学习笔记4:特殊的层及solver最优化求解

Caffe学习笔记4:特殊的层及solver最优化求解

作者: Zz鱼丸 | 来源:发表于2017-08-25 16:42 被阅读0次

    今天总结一下搜到的一些知识:
    感谢

    http://blog.csdn.net/roslei/article/details/52807699
    http://blog.csdn.net/u013066730/article/details/53764155
    http://blog.csdn.net/qq_26898461/article/details/50445392
    

    卷积神经网络(CNN)中的一些特殊层

    Batch Normalization

    意义: 网络训练时,用来加速收敛速度
    提醒: 已经将BN集成为一个layer了,使用时需要和scale层一起使用
    训练的时候,将BN层的use_global_stats设置为false; 测试的时候将
    use_global_stats设置为true,不然训练的时候会报“NAN”或者模型不
    收敛 – 师兄的经验,我还没试验过
    
    用法: 详见 [残差神经网络](https://github.com/KaimingHe/deep-
    residual-networks/blob/master/prototxt/ResNet-50-deploy.prototxt)的
    使用
    

    Dropout

    意义: 防止模型过拟合;训练模型时,随机让网络某些隐含层节点的    
    权重不工作(不工作的那些节点可以暂时认为不是网络结构的一部
    分,但是它的权重得保留下来,只是暂时不更新而已,因为下次样本
    输入时它可能又得工作了)
    用法:
            layer { 
            name: “drop7” 
            type: “Dropout” 
            bottom: “fc7-conv” 
            top: “fc7-conv” 
            dropout_param { 
            dropout_ratio: 0.5 
            } 
            }
    

    ReLU

     意义: 激活函数的一种;对于给定的一个输入值x,如果x > 0,
     ReLU层的输出为x,如果x < 0,ReLU层的输出为0。
     提醒: 可选参数negative_slope,此参数使得x < 0时,ReLU层的输
     出为negative_slope * x;目前已经有了ReLU的进化版 – [PReLU]
     (https://arxiv.org/abs/1502.01852)
     用法:
     layer { 
     name: “relu1” 
     type: “ReLU” 
     bottom: “conv1” 
     top: “conv1” 
     relu_param{ 
     negative_slope: [默认:0] 
     } 
     }
    

    PReLU

     意义: ReLu的进化版;。
    提醒: 在负半轴的输出乘以一个系数,而这个系数是可学习的(你可
    以为其指定学习率),其中value是系数的初始值,channel_shared
    指定是否在各个通道间共享这个系数。 据说有的实验更快更好地收
    敛,但有的实验准确率却有所下降 - 具体效果还是得以具体实验为准
    (自己没有用过,不加评论 
    -用法:
     layer { 
     name: “relu1” 
     type: “PReLU” 
     bottom: “conv1” 
     top: “conv1” 
     param { 
     lr_mult: 1 
     decay_mult: 0 
     } 
     prelu_param { 
     filler: { 
     value: 0.33 #: 默认为0.25 
     } 
    channel_shared: false 
    } 
    }
    

    Solver最优化方法

    Solver的流程:

    1. 设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络。(通过调用另外一个配置文件prototxt来进行)
    2. 通过forward和backward迭代的进行优化来跟新参数。
    3. 定期的评价测试网络。 (可设定多少次训练后,进行一次测试)
    4. 在优化过程中显示模型和solver的状态

    在每一次的迭代过程中,solver做了这几步工作:
    1、调用forward算法来计算最终的输出值,以及对应的loss
    2、调用backward算法来计算每层的梯度
    3、根据选用的slover方法,利用梯度进行参数更新
    4、记录并保存每次迭代的学习率、快照,以及对应的状态。

    net: "examples/mnist/lenet_train_test.prototxt"
    test_iter: 100
    test_interval: 500
    base_lr: 0.01
    momentum: 0.9
    type: SGD
    weight_decay: 0.0005
    lr_policy: "inv"
    gamma: 0.0001
    power: 0.75
    display: 100
    max_iter: 20000
    snapshot: 5000
    snapshot_prefix: "examples/mnist/lenet"
    solver_mode: CPU
    

    接下来,我们对每一行进行详细解译:

    net: "examples/mnist/lenet_train_test.prototxt"
    

    设置深度网络模型。每一个模型就是一个net,需要在一个专门的配置文件中对net进行配置,每个net由许多的layer所组成。注意的是:文件的路径要从caffe的根目录开始,其它的所有配置都是这样。

    也可用train_net和test_net来对训练模型和测试模型分别设定。例如:

    train_net: "examples/hdf5_classification/logreg_auto_train.prototxt"
    test_net: "examples/hdf5_classification/logreg_auto_test.prototxt"
    

    接下来第二行:

    test_iter: 100
    

    这个要与test layer中的batch_size结合起来理解。mnist数据中测试样本总数为10000,一次性执行全部数据效率很低,因此我们将测试数据分成几个批次来执行,每个批次的数量就是batch_size。假设我们设置batch_size为100,则需要迭代100次才能将10000个数据全部执行完。因此test_iter设置为100。执行完一次全部数据,称之为一个epoch

    test_interval: 500
    

    测试间隔。也就是每训练500次,才进行一次测试。

    base_lr: 0.01
    lr_policy: "inv"
    gamma: 0.0001
    power: 0.75
    

    这四行可以放在一起理解,用于学习率的设置。只要是梯度下降法来求解优化,都会有一个学习率,也叫步长。base_lr用于设置基础学习率,在迭代的过程中,可以对基础学习率进行调整。怎么样进行调整,就是调整的策略,由lr_policy来设置。

    lr_policy可以设置为下面这些值,相应的学习率的计算为:

    • fixed:   保持base_lr不变.
    • step:    如果设置为step,则还需要设置一个stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
    • exp:   返回base_lr * gamma ^ iter, iter为当前迭代次数
    • inv:   如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
    • multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,而multistep则是根据 stepvalue值变化
    • poly:    学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
    • sigmoid: 学习率进行sigmod衰减,返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
      multistep示例:
    base_lr: 0.01
    momentum: 0.9
    weight_decay: 0.0005
    # The learning rate policy
    lr_policy: "multistep"
    gamma: 0.9
    stepvalue: 5000
    stepvalue: 7000
    stepvalue: 8000
    stepvalue: 9000
    stepvalue: 9500
    

    接下来的参数:

    momentum :0.9
    

    上一次梯度更新的权重

    type: SGD
    

    优化算法选择。这一行可以省掉,因为默认值就是SGD。总共有六种方法可选择,在本文的开头已介绍。

    weight_decay: 0.0005
    

    权重衰减项,防止过拟合的一个参数。

    display: 100
    

    每训练100次,在屏幕上显示一次。如果设置为0,则不显示。

    max_iter: 20000
    

    最大迭代次数。这个数设置太小,会导致没有收敛,精确度很低。设置太大,会导致震荡,浪费时间。

    snapshot: 5000snapshot_prefix: "examples/mnist/lenet"
    

    快照。将训练出来的model和solver状态进行保存,snapshot用于设置训练多少次后进行保存,默认为0,不保存。snapshot_prefix设置保存路径。
    还可以设置snapshot_diff,是否保存梯度值,默认为false,不保存。
    也可以设置snapshot_format,保存的类型。有两种选择:HDF5 和BINARYPROTO ,默认为BINARYPROTO

    solver_mode: CPU
    

    设置运行模式。默认为GPU,如果你没有GPU,则需要改成CPU,否则会出错。

    注意:以上的所有参数都是可选参数,都有默认值。根据solver方法(type)的不同,还有一些其它的参数,在此不一一列举。

    caffe总共提供了六种优化方法:

    • Stochastic Gradient Descent (type: "SGD")
    • AdaDelta (type: "AdaDelta")
    • Adaptive Gradient (type: "AdaGrad")
    • Adam (type: "Adam")
    • Nesterov’s Accelerated Gradient (type: "Nesterov") and
      RMSprop (type: "RMSProp")

    1、Stochastic gradient descent(SGD)
    随机梯度下降(Stochastic gradient descent)是在梯度下降法(gradient descent)的基础上发展起来的,梯度下降法也叫最速下降法,具体原理在网易公开课《机器学习》中,吴恩达教授已经讲解得非常详细。SGD在通过负梯度

    和上一次的权重更新值Vt
    的线性组合来更新W,迭代公式如下:
    如果v(t)初始值为0,v(t+1)的方向就与梯度的负方向相同,那么会加速优化,又由于u<1,所以在n多次后可近似看成v1 的 n次方,那么v(t+1)也会变化很小,那时也正是梯度变化很小的时候,所以这种方式还是很有用的。 其中, 是负梯度的学习率(base_lr), 是上一次梯度值的权重(momentum),用来加权之前梯度方向对现在梯度下降方向的影响。这两个参数需要通过tuning来得到最好的结果,一般是根据经验设定的。如果你不知道如何设定这些参数,可以参考相关的论文。
    深度学习中使用SGD,比较好的初始化参数的策略是把学习率设为0.01左右(base_lr: 0.01),在训练的过程中,如果loss开始出现稳定水平时,对学习率乘以一个常数因子(gamma),这样的过程重复多次。
    对于momentum,一般取值在0.5--0.99之间。通常设为0.9,momentum可以让使用SGD的深度学习方法更加稳定以及快速。
    关于更多的momentum,请参看Hinton的《A Practical Guide to Training Restricted Boltzmann Machines》。
    实例:
    base_lr: 0.01   
    lr_policy: "step"  
    gamma: 0.1     
    stepsize: 1000    
    max_iter: 3500   
    momentum: 0.9  
    

    lr_policy设置为step,则学习率的变化规则为 base_lr * gamma ^ (floor(iter / stepsize))
    即前1000次迭代,学习率为0.01; 第1001-2000次迭代,学习率为0.001; 第2001-3000次迭代,学习率为0.0001,第3001-3500次迭代,学习率为10-5

    上面的设置只能作为一种指导,它们不能保证在任何情况下都能得到最佳的结果,有时候这种方法甚至不work。如果学习的时候出现diverge(比如,你一开始就发现非常大或者NaN或者inf的loss值或者输出),此时你需要降低base_lr的值(比如,0.001),然后重新训练,这样的过程重复几次直到你找到可以work的base_lr。
    2、AdaDelta
    AdaDelta是一种”鲁棒的学习率方法“,是基于梯度的优化方法(like SGD)。
    具体的介绍文献:
    M. Zeiler ADADELTA: AN ADAPTIVE LEARNING RATE METHOD. arXiv preprint, 2012.
    示例:

    net: "examples/mnist/lenet_train_test.prototxt"  
    test_iter: 100  
    test_interval: 500  
    base_lr: 1.0  
    lr_policy: "fixed"  
    momentum: 0.95  
    weight_decay: 0.0005  
    display: 100  
    max_iter: 10000  
    snapshot: 5000  
    snapshot_prefix: "examples/mnist/lenet_adadelta"  
    solver_mode: GPU  
    type: "AdaDelta"  
    delta: 1e-6  
    

    从最后两行可看出,设置solver type为Adadelta时,需要设置delta的值。
    3、AdaGrad
    自适应梯度(adaptive gradient)是基于梯度的优化方法(like SGD)
    具体的介绍文献:
    Duchi, E. Hazan, and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. The Journal of Machine Learning Research, 2011.
    示例:

    net: "examples/mnist/mnist_autoencoder.prototxt"  
    test_state: { stage: 'test-on-train' }  
    test_iter: 500  
    test_state: { stage: 'test-on-test' }  
    test_iter: 100  
    test_interval: 500  
    test_compute_loss: true  
    base_lr: 0.01  
    lr_policy: "fixed"  
    display: 100  
    max_iter: 65000  
    weight_decay: 0.0005  
    snapshot: 10000  
    snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"  
    # solver mode: CPU or GPU  
    solver_mode: GPU  
    type: "AdaGrad"  
    

    4、Adam
    是一种基于梯度的优化方法(like SGD)。
    具体的介绍文献:
    D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.
    5、NAG
    Nesterov 的加速梯度法(Nesterov’s accelerated gradient)作为凸优化中最理想的方法,其收敛速度非常快。
    具体的介绍文献:
    I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the Importance of Initialization and Momentum in Deep Learning. Proceedings of the 30th International Conference on Machine Learning, 2013.
    示例:

    net: "examples/mnist/mnist_autoencoder.prototxt"  
    test_state: { stage: 'test-on-train' }  
    test_iter: 500  
    test_state: { stage: 'test-on-test' }  
    test_iter: 100  
    test_interval: 500  
    test_compute_loss: true  
    base_lr: 0.01  
    lr_policy: "step"  
    gamma: 0.1  
    stepsize: 10000  
    display: 100  
    max_iter: 65000  
    weight_decay: 0.0005  
    snapshot: 10000  
    snapshot_prefix: "examples/mnist/mnist_autoencoder_nesterov_train"  
    momentum: 0.95  
    # solver mode: CPU or GPU  
    solver_mode: GPU  
    type: "Nesterov"  
    

    6、RMSprop
    RMSprop是Tieleman在一次 Coursera课程演讲中提出来的,也是一种基于梯度的优化方法(like SGD)
    具体的介绍文献:
    T. Tieleman, and G. Hinton. RMSProp: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning.Technical report, 2012.
    示例:

    net: "examples/mnist/lenet_train_test.prototxt"  
    test_iter: 100  
    test_interval: 500  
    base_lr: 1.0  
    lr_policy: "fixed"  
    momentum: 0.95  
    weight_decay: 0.0005  
    display: 100  
    max_iter: 10000  
    snapshot: 5000  
    snapshot_prefix: "examples/mnist/lenet_adadelta"  
    solver_mode: GPU  
    type: "RMSProp"  
    rms_decay: 0.98  
    
    最后两行,需要设置rms_decay值。
    

    相关文章

      网友评论

          本文标题:Caffe学习笔记4:特殊的层及solver最优化求解

          本文链接:https://www.haomeiwen.com/subject/qhoudxtx.html