美文网首页从零开始机器学习
从Keras开始掌握深度学习-5 优化你的模型

从Keras开始掌握深度学习-5 优化你的模型

作者: 养薛定谔的猫 | 来源:发表于2018-10-31 19:08 被阅读19次

    前言

    在第3篇教程里面,我们所编写的CNN进行分类的模型准确度达到了80%。对于一个分类模型来说,80%的准确率不算很低了。但是,在现有的情况下,我们应该如何优化这个模型呢?
    在从零开始机器学习的系列里面,理论上的优化模型可以修改超参数。同样,在Keras的这个CNN程序中,我们可以指定其他的优化器(这里用的是ADAM)。修改卷积核大小、步长、修改激活函数的类型、加入/取消全连接层、修改每个层有多少神经元也是可行的方法。
    面对这么多可以修改的地方,修改现有的程序是必定需要做的。

    修改现有的程序

    首先确定要修改的内容。全连接的层数、层的大小和卷积层的层数。
    全连接层可以有0、1、2层;卷积层可以有1、2、3或更多层;然后就是每层的大小可以是32、64或128...
    通过以下的代码来确定这些排列组合可以得到多少模型:

    dense_layers = [0, 1, 2]
    layer_sizes = [32, 64, 128]
    conv_layers = [1, 2, 3]
    
    for dense_layer in dense_layers:
        for layer_size in layer_sizes:
            for conv_layer in conv_layers:
                NAME = "{}-conv-{}-nodes-{}-dense-{}".format(conv_layer, layer_size, dense_layer, int(time.time()))
                print(NAME)
    

    运行上述Python代码,在控制台的输出如下:

    1-conv-32-nodes-0-dense-1540975261
    2-conv-32-nodes-0-dense-1540975261
    3-conv-32-nodes-0-dense-1540975261
    1-conv-64-nodes-0-dense-1540975261
    2-conv-64-nodes-0-dense-1540975261
    3-conv-64-nodes-0-dense-1540975261
    1-conv-128-nodes-0-dense-1540975261
    2-conv-128-nodes-0-dense-1540975261
    3-conv-128-nodes-0-dense-1540975261
    1-conv-32-nodes-1-dense-1540975261
    2-conv-32-nodes-1-dense-1540975261
    3-conv-32-nodes-1-dense-1540975261
    1-conv-64-nodes-1-dense-1540975261
    2-conv-64-nodes-1-dense-1540975261
    3-conv-64-nodes-1-dense-1540975261
    1-conv-128-nodes-1-dense-1540975261
    2-conv-128-nodes-1-dense-1540975261
    3-conv-128-nodes-1-dense-1540975261
    1-conv-32-nodes-2-dense-1540975261
    2-conv-32-nodes-2-dense-1540975261
    3-conv-32-nodes-2-dense-1540975261
    1-conv-64-nodes-2-dense-1540975261
    2-conv-64-nodes-2-dense-1540975261
    3-conv-64-nodes-2-dense-1540975261
    1-conv-128-nodes-2-dense-1540975261
    2-conv-128-nodes-2-dense-1540975261
    3-conv-128-nodes-2-dense-1540975261
    

    也就是说,通过排列组合可以得到27种模型。
    修改第四讲的代码,将上述代码加入程序,得到如下:

    import time
    import tensorflow as tf
    from tensorflow.keras.models import Sequential
    from tensorflow.keras.layers import Dense, Dropout, Activation, Flatten, Conv2D, MaxPooling2D
    import pickle
    from tensorflow.keras.callbacks import TensorBoard
    import time
    
    gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.33)
    sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))
    
    X = pickle.load(open("X.pickle","rb"))
    y = pickle.load(open("y.pickle","rb"))
    
    # normalize data image in grayscale is from 0-255
    X = X/255.0
    
    # train multiple models
    dense_layers = [0, 1, 2]
    layer_sizes = [32, 64, 128]
    conv_layers = [1, 2, 3]
    
    for dense_layer in dense_layers:
        for layer_size in layer_sizes:
            for conv_layer in conv_layers:
                model_name = "{}-conv-{}-nodes-{}-dense-{}".format(conv_layer, layer_size, dense_layer, int(time.time()))
                tensorboard = TensorBoard(log_dir='logs/{}'.format(model_name))
                print(model_name)
                model = Sequential()
    
                model.add(Conv2D(layer_size, (3, 3), input_shape = X.shape[1:]))
                model.add(Activation("relu"))
                model.add(MaxPooling2D(pool_size=(2,2)))
    
                for l in range(conv_layer-1):
                    model.add(Conv2D(layer_size, (3, 3)))
                    model.add(Activation("relu"))
                    model.add(MaxPooling2D(pool_size=(2,2)))
    
                model.add(Flatten()) #Conv Layer是2D, DenseLayer是1D的 所以需要将ConvLayer压平
                for l in range(dense_layer):
                    model.add(Dense(layer_size))
                    model.add(Activation("relu"))
    
                model.add(Dense(1))
                model.add(Activation("sigmoid"))
    
                model.compile(loss="binary_crossentropy",
                             optimizer="adam",
                             metrics=["accuracy"]) # 可以使用categorical_crossentropy作为损失函数
    
                model.fit(X, y, batch_size =32, epochs=20, validation_split=0.1, callbacks=[tensorboard])
    
    

    在控制台运行,一共需要训练27个模型,因此在训练之前,最好将logs的目录下已经存在的日志清空。这样会方便我们观察这一讲中的不同参数对于模型的影响。

    使用TensorBoard观察模型

    和上一讲一样,使用tensorboard --logdir=logs/打开TensorBoard。

    TensorBoard观察所有模型
    同样,我们的关注点应该放在验证集的准确率和损失上面。
    在关注的区域拖动鼠标,画出一个矩形,则图标会放大到这个矩形关注的范围内。
    放大折线图
    通过观察,验证集损失表现最好的是3个卷积层-32个节点-0个全连接层的模型(3-32-0红色);其次是2个卷积层-32个节点-0个卷积层的模型(2-32-0蓝色);然后是2个卷积层-64个节点和-0个全连接层的模型(2-64-0粉色)。
    同样再来到验证集准确率的折线图,找到这几个折线图中最高的几个模型。
    通过分析,几个模型中3个卷积层的准确率最高,且没有全连接层的准确率最高且损失最低。
    让我们再加入一个3卷积-1个全连接层的模型,并且只将全连接层的大小设为512。
    此处增加全连接层的大小是为了与现有的模型进行对比。增加了全连接层之后,模型的大小会成倍增加,训练速度增加了一倍。
    再次回到TensorBoard,取消选择所有的除了3个卷积层和没有全连接层以外的所有模型。通过对比,可以看到512大小的全连接层在训练集上面的准确度比较高,但是到了验证集却比较低。这也就说明了模型存在了过拟合。
    综上,对于目前的数据集和模型来说。3个卷积层、0个全连接层是最佳的选择。

    相关文章

      网友评论

        本文标题:从Keras开始掌握深度学习-5 优化你的模型

        本文链接:https://www.haomeiwen.com/subject/peiatqtx.html