卷积神经网络之AlexNet(附完整代码)

作者: KyleLou | 来源:发表于2020-02-26 18:52 被阅读0次

卷积神经网络之AlexNet(附完整代码)
TORCH03-05AlexNet网络与ImageNet
CNN之——AlexNet
卷积神经网络之GoogLeNet(附完整代码)
卷积神经网络之GAN(附完整代码)
卷积神经网络之VGG(附完整代码)
[动手学深度学习-PyTorch版]-5.6卷积神经网络-深度卷
无知的一些入门的东西
CNN
深度卷积网络：实例探究

由于受到计算机性能的影响，虽然LeNet在图像分类中取得了较好的成绩，但是并没有引起很多的关注。知道2012年，Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠，卷积神经网络乃至深度学习重新引起了广泛的关注。

AlexNet特点

AlexNet是在LeNet的基础上加深了网络的结构，学习更丰富更高维的图像特征。AlexNet的特点：

1.更深的网络结构

2.使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征

3.使用Dropout抑制过拟合

4.使用数据增强Data Augmentation抑制过拟合

5.使用Relu替换之前的sigmoid的作为激活函数

6.多GPU训练

7.ReLu作为激活函数

在最初的感知机模型中，输入和输出的关系如下：
𝑦=∑𝑖𝑤𝑖𝑥𝑖+𝑏

只是单纯的线性关系，这样的网络结构有很大的局限性：即使用很多这样结构的网络层叠加，其输出和输入仍然是线性关系，无法处理有非线性关系的输入输出。因此，对每个神经元的输出做个非线性的转换也就是，将上面就加权求和
∑𝑖𝑤𝑖𝑥𝑖+𝑏 的结果输入到一个非线性函数，也就是激活函数中。这样，由于激活函数的引入，多个网络层的叠加就不再是单纯的线性变换，而是具有更强的表现能力。

image

在最初， 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 和 𝑡𝑎𝑛ℎ函数最常用的激活函数。

image

在网络层数较少时，𝑠𝑖𝑔𝑚𝑜𝑖𝑑 函数的特性能够很好的满足激活函数的作用：它把一个实数压缩至0到1之间，当输入的数字非常大的时候，结果会接近1；当输入非常大的负数时，则会得到接近0的结果。这种特性，能够很好的模拟神经元在受刺激后，是否被激活向后传递信息（输出为0，几乎不被激活；输出为1，完全被激活）。𝑠𝑖𝑔𝑚𝑜𝑖𝑑一个很大的问题就是梯度饱和。观察𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数的曲线，当输入的数字较大（或较小）时，其函数值趋于不变，其导数变的非常的小。这样，在层数很多的的网络结构中，进行反向传播时，由于很多个很小的𝑠𝑖𝑔𝑚𝑜𝑖𝑑导数累成，导致其结果趋于0，权值更新较慢。

ReLu

image
针对 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 梯度饱和导致训练收敛慢的问题，在AlexNet中引入了ReLU。ReLU是一个分段线性函数，小于等于0则输出为0；大于0的则恒等输出。相比于 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 ，ReLU有以下有点：
- 计算开销下。 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 的正向传播有指数运算，倒数运算，而ReLu是线性输出；反向传播中， 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 有指数运算，而ReLU有输出的部分，导数始终为1.
- 梯度饱和问题
- 稀疏性。Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

这里有个问题，前面提到，激活函数要用非线性的，是为了使网络结构有更强的表达的能力。那这里使用ReLU本质上却是个线性的分段函数，是怎么进行非线性变换的。

这里把神经网络看着一个巨大的变换矩阵 𝑀 ，其输入为所有训练样本组成的矩阵 𝐴 ，输出为矩阵 𝐵 。
𝐵=𝑀⋅𝐴

这里的 𝑀 是一个线性变换的话，则所有的训练样本 𝐴 进行了线性变换输出为 𝐵 。

那么对于ReLU来说，由于其是分段的，0的部分可以看着神经元没有激活，不同的神经元激活或者不激活，其神经玩过组成的变换矩阵是不一样的。
设有两个训练样本𝑎1,𝑎2 其训练时神经网络组成的变换矩阵为𝑀1,𝑀2 由于𝑀1变换对应的神经网络中激活神经元和𝑀2是不一样的，这样𝑀1,𝑀2实际上是两个不同的线性变换。也就是说，每个训练样本使用的线性变换矩阵𝑀𝑖 是不一样的，在整个训练样本空间来说，其经历的是非线性变换。**

简单来说，不同训练样本中的同样的特征，在经过神经网络学习时，流经的神经元是不一样的（激活函数值为0的神经元不会被激活）。这样，最终的输出实际上是输入样本的非线性变换。

单个训练样本是线性变换，但是每个训练样本的线性变换是不一样的，这样整个训练样本集来说，就是非线性的变换。

数据增强

神经网络由于训练的参数多，表能能力强，所以需要比较多的数据量，不然很容易过拟合。当训练数据有限时，可以通过一些变换从已有的训练数据集中生成一些新的数据，以快速地扩充训练数据。对于图像数据集来说，可以对图像进行一些形变操作：

翻转
随机裁剪
平移，颜色光照的变换
...

AlexNet中对数据做了以下操作：

随机裁剪，对256×256的图片进行随机裁剪到227×227，然后进行水平翻转。
测试的时候，对左上、右上、左下、右下、中间分别做了5次裁剪，然后翻转，共10个裁剪，之后对结果求平均。
对RGB空间做PCA（主成分分析），然后对主成分做一个（0, 0.1）的高斯扰动，也就是对颜色、光照作变换，结果使错误率又下降了1%。

层叠池化

在LeNet中池化是不重叠的，即池化的窗口的大小和步长是相等的，如下

image

在AlexNet中使用的池化（Pooling）却是可重叠的，也就是说，在池化的时候，每次移动的步长小于池化的窗口长度。AlexNet池化的大小为3×3的正方形，每次池化移动步长为2，这样就会出现重叠。重叠池化可以避免过拟合，这个策略贡献了0.3%的Top-5错误率。与非重叠方案𝑠=2，𝑧=2相比，输出的维度是相等的，并且能在一定程度上抑制过拟合。

局部相应归一化

ReLU具有让人满意的特性，它不需要通过输入归一化来防止饱和。如果至少一些训练样本对ReLU产生了正输入，那么那个神经元上将发生学习。然而，我们仍然发现接下来的局部响应归一化有助于泛化。𝑎𝑖𝑥,𝑦表示神经元激活，通过在(𝑥,𝑦)位置应用核𝑖，然后应用ReLU非线性来计算，响应归一化激活𝑏𝑖𝑥,𝑦通过下式给定：
𝑏𝑖𝑥,𝑦=𝑎𝑖𝑥,𝑦/(𝑘+𝛼∑𝑗=𝑚𝑎𝑥(0,𝑖−𝑛/2)𝑚𝑖𝑛(𝑁−1,𝑖+𝑛/2)(𝑎𝑗𝑥,𝑦)2)𝛽

其中，𝑁是卷积核的个数，也就是生成的FeatureMap的个数；𝑘,𝛼,𝛽,𝑛是超参数，论文中使用的值是𝑘=2,𝑛=5,𝛼=10−4,𝛽=0.75

输出𝑏𝑖𝑥,𝑦和输入𝑎𝑗𝑥,𝑦的上标表示的是当前值所在的通道，也即是叠加的方向是沿着通道进行。将要归一化的值𝑎𝑖𝑥,𝑦所在附近通道相同位置的值的平方累加起来∑𝑚𝑖𝑛(𝑁−1,𝑖+𝑛/2)𝑗=𝑚𝑎𝑥(0,𝑖−𝑛/2)(𝑎𝑗𝑥,𝑦)2

Dropout
这个是比较常用的抑制过拟合的方法了。
引入Dropout主要是为了防止过拟合。在神经网络中Dropout通过修改神经网络本身结构来实现，对于某一层的神经元，通过定义的概率将神经元置为0，这个神经元就不参与前向和后向传播，就如同在网络中被删除了一样，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新。在下一次迭代中，又重新随机删除一些神经元（置为0），直至训练结束。
Dropout应该算是AlexNet中一个很大的创新，现在神经网络中的必备结构之一。Dropout也可以看成是一种模型组合，每次生成的网络结构都不一样，通过组合多个模型的方式能够有效地减少过拟合，Dropout只需要两倍的训练时间即可实现模型组合（类似取平均）的效果，非常高效。
如下图：

image

Alex网络结构

image

上图中的输入是224×224，不过经过计算(224−11)/4=54.75并不是论文中的55×55，而使用227×227作为输入，则(227−11)/4=55

网络包含8个带权重的层；前5层是卷积层，剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入，softmax会产生1000类标签的分布网络包含8个带权重的层；前5层是卷积层，剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入，softmax会产生1000类标签的分布。

卷积层C1
该层的处理流程是：卷积-->ReLU-->池化-->归一化。
卷积，输入是227×227，使用96个11×11×3的卷积核，得到的FeatureMap为55×55×96。
ReLU，将卷积层输出的FeatureMap输入到ReLU函数中。
池化，使用3×3步长为2的池化单元（重叠池化，步长小于池化单元的宽度），输出为27×27×96（(55−3)/2+1=27)
局部响应归一化，使用𝑘=2,𝑛=5,𝛼=10−4,𝛽=0.75进行局部归一化，输出的仍然为27×27×96，输出分为两组，每组的大小为27×27×48

卷积层C2
该层的处理流程是：卷积-->ReLU-->池化-->归一化
卷积，输入是2组27×27×48。使用2组，每组128个尺寸为5×5×48的卷积核，并作了边缘填充padding=2，卷积的步长为1. 则输出的FeatureMap为2组，每组的大小为27×27 𝑡𝑖𝑚𝑒𝑠128. （(27+2∗2−5)/1+1=27）
ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
池化运算的尺寸为3×3，步长为2，池化后图像的尺寸为(27−3)/2+1=13，输出为13×13×256
局部响应归一化，使用𝑘=2,𝑛=5,𝛼=10−4,𝛽=0.75进行局部归一化，输出的仍然为13×13×256，输出分为2组，每组的大小为13×13×128

卷积层C3
该层的处理流程是：卷积-->ReLU
卷积，输入是13×13×256，使用2组共384尺寸为3×3×256的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为13×13 𝑡𝑖𝑚𝑒𝑠384
ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
卷积层C4
该层的处理流程是：卷积-->ReLU
该层和C3类似。
卷积，输入是13×13×384，分为两组，每组为13×13×192.使用2组，每组192个尺寸为3×3×192的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为13×13 𝑡𝑖𝑚𝑒𝑠384，分为两组，每组为13×13×192
ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
卷积层C5
该层处理流程为：卷积-->ReLU-->池化
卷积，输入为13×13×384，分为两组，每组为13×13×192。使用2组，每组为128尺寸为3×3×192的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为13×13×256
ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
池化，池化运算的尺寸为3×3，步长为2，池化后图像的尺寸为 (13−3)/2+1=6,即池化后的输出为6×6×256
全连接层FC6
该层的流程为：（卷积）全连接 -->ReLU -->Dropout
卷积->全连接：输入为6×6×256,该层有4096个卷积核，每个卷积核的大小为6×6×256。由于卷积核的尺寸刚好与待处理特征图（输入）的尺寸相同，即卷积核中的每个系数只与特征图（输入）尺寸的一个像素值相乘，一一对应，因此，该层被称为全连接层。由于卷积核与特征图的尺寸相同，卷积运算后只有一个值，因此，卷积后的像素层尺寸为4096×1×1，即有4096个神经元。
ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
Dropout,抑制过拟合，随机的断开某些神经元的连接或者是不激活某些神经元
全连接层FC7
流程为：全连接-->ReLU-->Dropout
全连接，输入为4096的向量
ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
Dropout,抑制过拟合，随机的断开某些神经元的连接或者是不激活某些神经元
输出层
第七层输出的4096个数据与第八层的1000个神经元进行全连接，经过训练后输出1000个float型的值，这就是预测结果。
AlexNet参数数量
卷积层的参数 = 卷积核的数量 * 卷积核 + 偏置

C1: 96个11×11×3的卷积核，96×11×11×3+96=34848
C2: 2组，每组128个5×5×48的卷积核，(128×5×5×48+128)×2=307456
C3: 384个3×3×256的卷积核，3×3×256×384+384=885120
C4: 2组，每组192个3×3×192的卷积核，(3×3×192×192+192)×2=663936
C5: 2组，每组128个3×3×192的卷积核，(3×3×192×128+128)×2=442624
FC6: 4096个6×6×256的卷积核，6×6×256×4096+4096=37752832
FC7: 4096∗4096+4096=16781312
output: 4096∗1000=4096000
卷积层 C2,C4,C5中的卷积核只和位于同一GPU的上一层的FeatureMap相连。从上面可以看出，参数大多数集中在全连接层，在卷积层由于权值共享，权值参数较少。
完整代码

# -- encoding:utf-8 --
 
Create on 19/5/25 10:06
 

import os
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

# 定义外部传入的参数
tf.app.flags.DEFINE_bool(flag_name="is_train",
                         default_value=True,
                         docstring="给定是否是训练操作，True表示训练，False表示预测！！")
tf.app.flags.DEFINE_string(flag_name="checkpoint_dir",
                           default_value="./mnist/models/models_alext",
                           docstring="给定模型存储的文件夹，默认为./mnist/models/models_alext")
tf.app.flags.DEFINE_string(flag_name="logdir",
                           default_value="./mnist/graph/graph_alext",
                           docstring="给定模型日志存储的路径，默认为./mnist/graph/graph_alext")
tf.app.flags.DEFINE_integer(flag_name="batch_size",
                            default_value=16,
                            docstring="给定训练的时候每个批次的样本数目，默认为16.")
tf.app.flags.DEFINE_integer(flag_name="store_per_batch",
                            default_value=100,
                            docstring="给定每隔多少个批次进行一次模型持久化的操作，默认为100")
tf.app.flags.DEFINE_integer(flag_name="validation_per_batch",
                            default_value=100,
                            docstring="给定每隔多少个批次进行一次模型的验证操作，默认为100")
tf.app.flags.DEFINE_float(flag_name="learning_rate",
                          default_value=0.01,
                          docstring="给定模型的学习率，默认0.01")
FLAGS = tf.app.flags.FLAGS


def create_dir_with_not_exits(dir_path):
    """
    如果文件的文件夹路径不存在，直接创建
    :param dir_path:
    :return:
    """
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)


def conv2d(name, net, filter_height, filter_width, output_channels, stride=1, pandding='SAME'):
    with tf.variable_scope(name):
        input_channels = net.get_shape()[-1]
        filter = tf.get_variable(name='w', shape=[filter_height, filter_width, input_channels, output_channels])
        bias = tf.get_variable(name='b', shape=[output_channels])
        net = tf.nn.conv2d(input=net, filter=filter, strides=[1, stride, stride, 1], padding=pandding)
        net = tf.nn.bias_add(net, bias)
    return net


def relu(name, net):
    with tf.variable_scope(name):
        return tf.nn.relu(net)


def max_pool(name, net, height, width, stride, padding='SAME'):
    with tf.variable_scope(name):
        return tf.nn.max_pool(value=net, ksize=[1, height, width, 1],
                              strides=[1, stride, stride, 1], padding=padding)


def fc(name, net, units):
    with tf.variable_scope(name):
        input_units = net.get_shape()[-1]
        w = tf.get_variable(name='w', shape=[input_units, units])
        b = tf.get_variable(name='b', shape=[units])
        net = tf.matmul(net, w) + b
    return net


def create_model(input_x, show_image=False):
    """
    构建模型
    :param input_x: 占位符，格式为[None, 784]
    :return:
    """
    # 定义一个网络结构: input -> conv -> relu -> pooling -> conv -> relu -> pooling -> FC -> relu -> FC
    with tf.variable_scope("net"):
        with tf.variable_scope("Input"):
            # 这里定义一些图像的处理方式，包括：格式转换、基础处理(大小、剪切...)
            x = tf.reshape(input_x, shape=[-1, 28, 28, 1])
            # 这里做resize只是为了符合论文中的输入大小
            x = tf.image.resize_nearest_neighbor(x, size=(224, 224))

        with tf.device('/GPU:0'), tf.variable_scope("net11"):
            net1 = conv2d('conv1', x, 11, 11, 48, 4)
            net1 = relu('relu1', net1)
            net1 = max_pool('pool1', net1, 2, 2, 2)
            net1 = conv2d('conv2', net1, 5, 5, 128, 1)
            net1 = relu('relu2', net1)
            net1 = max_pool('pool2', net1, 2, 2, 2)
        with tf.device('/GPU:1'), tf.variable_scope("net21"):
            net2 = conv2d('conv1', x, 11, 11, 48, 4)
            net2 = relu('relu1', net2)
            net2 = max_pool('pool1', net2, 2, 2, 2)
            net2 = conv2d('conv2', net2, 5, 5, 128, 1)
            net2 = relu('relu2', net2)
            net2 = max_pool('pool2', net2, 2, 2, 2)

        # 合并两个网络的输出
        net = tf.concat([net1, net2], axis=-1)

        with tf.device('/GPU:0'), tf.variable_scope("net12"):
            net1 = conv2d('conv3', net, 3, 3, 192, 1)
            net1 = relu('relu3', net1)
            net1 = conv2d('conv4', net1, 3, 3, 192, 1)
            net1 = relu('relu4', net1)
            net1 = conv2d('conv5', net1, 3, 3, 128, 1)
            net1 = relu('relu5', net1)
            net1 = max_pool('pool3', net1, 2, 2, 2)
        with tf.device('/GPU:1'), tf.variable_scope("net22"):
            net2 = conv2d('conv3', net, 3, 3, 192, 1)
            net2 = relu('relu3', net2)
            net2 = conv2d('conv4', net2, 3, 3, 192, 1)
            net2 = relu('relu4', net2)
            net2 = conv2d('conv5', net2, 3, 3, 128, 1)
            net2 = relu('relu5', net2)
            net2 = max_pool('pool3', net2, 2, 2, 2)

        # 合并两个网络的输出
        net = tf.concat([net1, net2], axis=-1)
        shape = net.get_shape()
        net = tf.reshape(net, shape=[-1, shape[1] * shape[2] * shape[3]])

        # 做全连接操作
        with tf.device('/GPU:0'), tf.variable_scope("net13"):
            net1 = fc('fc1', net, 2048)
            net1 = relu('relu6', net1)
        with tf.device('/GPU:1'), tf.variable_scope("net23"):
            net2 = fc('fc1', net, 2048)
            net2 = relu('relu6', net2)

        # 合并两个网络的输出
        net = tf.concat([net1, net2], axis=-1)

        # 做全连接操作
        with tf.device('/GPU:0'), tf.variable_scope("net14"):
            net1 = fc('fc2', net, 2048)
            net1 = relu('relu7', net1)
        with tf.device('/GPU:1'), tf.variable_scope("net24"):
            net2 = fc('fc2', net, 2048)
            net2 = relu('relu7', net2)

        # 合并两个网络的输出
        net = tf.concat([net1, net2], axis=-1)

        # 全连接
        logits = fc('fc3', net, 10)

        with tf.variable_scope("Prediction"):
            # 每行的最大值对应的下标就是当前样本的预测值
            predictions = tf.argmax(logits, axis=1)

    return logits, predictions


def create_loss(labels, logits):
    """
    基于给定的实际值labels和预测值logits进行一个交叉熵损失函数的构建
    :param labels:  是经过哑编码之后的Tensor对象，形状为[n_samples, n_class]
    :param logits:  是神经网络的最原始的输出，形状为[n_samples, n_class], 每一行最大值那个位置对应的就是预测类别，没有经过softmax函数转换。
    :return:
    """
    with tf.name_scope("loss"):
        # loss = tf.reduce_mean(-tf.log(tf.reduce_sum(labels * tf.nn.softmax(logits))))
        loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits))
        tf.summary.scalar('loss', loss)
    return loss


def create_train_op(loss, learning_rate=0.01, global_step=None):
    """
    基于给定的损失函数构建一个优化器，优化器的目的就是让这个损失函数最小化
    :param loss:
    :param learning_rate:
    :param global_step:
    :return:
    """
    with tf.name_scope("train"):
        optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
        train_op = optimizer.minimize(loss, global_step=global_step)
    return train_op


def create_accuracy(labels, predictions):
    """
    基于给定的实际值和预测值，计算准确率
    :param labels:  是经过哑编码之后的Tensor对象，形状为[n_samples, n_class]
    :param predictions: 实际的预测类别下标，形状为[n_samples,]
    :return:
    """
    with tf.name_scope("accuracy"):
        # 获取实际的类别下标，形状为[n_samples,]
        y_labels = tf.argmax(labels, 1)
        # 计算准确率
        accuracy = tf.reduce_mean(tf.cast(tf.equal(y_labels, predictions), tf.float32))
        tf.summary.scalar('accuracy', accuracy)
    return accuracy


def train():
    # 对于文件是否存在做一个检测
    create_dir_with_not_exits(FLAGS.checkpoint_dir)
    create_dir_with_not_exits(FLAGS.logdir)

    with tf.Graph().as_default():
        # 一、执行图的构建
        # 0. 相关输入Tensor对象的构建
        input_x = tf.placeholder(dtype=tf.float32, shape=[None, 784], name='input_x')
        input_y = tf.placeholder(dtype=tf.float32, shape=[None, 10], name='input_y')
        global_step = tf.train.get_or_create_global_step()

        # 1. 网络结构的构建
        logits, predictions = create_model(input_x)
        # 2. 构建损失函数
        loss = create_loss(input_y, logits)
        # 3. 构建优化器
        train_op = create_train_op(loss,
                                   learning_rate=FLAGS.learning_rate,
                                   global_step=global_step)
        # 4. 构建评估指标
        accuracy = create_accuracy(input_y, predictions)

        # 二、执行图的运行/训练(数据加载、训练、持久化、可视化、模型的恢复....)
        with tf.Session() as sess:
            # 获取一个日志输出对象
            train_logdir = os.path.join(FLAGS.logdir, 'train')
            validation_logdir = os.path.join(FLAGS.logdir, 'validation')
            train_writer = tf.summary.FileWriter(logdir=train_logdir, graph=sess.graph)
            validation_writer = tf.summary.FileWriter(logdir=validation_logdir, graph=sess.graph)

            # a. 创建一个持久化对象(默认会将所有的模型参数全部持久化，因为不是所有的都需要的，最好仅仅持久化的训练的模型参数)
            var_list = tf.trainable_variables()
            # 是因为global_step这个变量是不参与模型训练的，所以模型不会持久化，这里加入之后，可以明确也持久化这个变量。
            var_list.append(global_step)
            saver = tf.train.Saver(var_list=var_list)

            # a. 变量的初始化操作(所有的非训练变量的初始化 + 持久化的变量恢复)
            # 所有变量初始化(如果有持久化的，后面做了持久化后，会覆盖的)
            sess.run(tf.global_variables_initializer())
            # 做模型的恢复操作
            ckpt = tf.train.get_checkpoint_state(FLAGS.checkpoint_dir)
            if ckpt and ckpt.model_checkpoint_path:
                print("进行模型恢复操作...")
                # 恢复模型
                saver.restore(sess, ckpt.model_checkpoint_path)
                # 恢复checkpoint的管理信息
                saver.recover_last_checkpoints(ckpt.all_model_checkpoint_paths)


            # 获取所有的summary输出操作
            summary = tf.summary.merge_all()

            # b. 训练数据的产生/获取（基于numpy随机产生<可以先考虑一个固定的数据集>）
            mnist = input_data.read_data_sets(
                train_dir='../datas/mnist',  # 给定本地磁盘的数据存储路径
                one_hot=True,  # 给定返回的数据中是否对Y做哑编码
                validation_size=5000  # 给定验证数据集的大小
            )

            # c. 模型训练
            batch_size = FLAGS.batch_size
            step = sess.run(global_step)
            vn_accuracy_ = 0
            while True:
                # 开始模型训练
                x_train, y_train = mnist.train.next_batch(batch_size=batch_size)
                _, loss_, accuracy_, summary_ = sess.run([train_op, loss, accuracy, summary], feed_dict={
                    input_x: x_train,
                    input_y: y_train
                })
                print("第{}次训练后模型的损失函数为:{}, 准确率:{}".format(step, loss_, accuracy_))
                train_writer.add_summary(summary_, global_step=step)

                # 持久化
                if step % FLAGS.store_per_batch == 0:
                    file_name = 'model_%.3f_%.3f_.ckpt' % (loss_, accuracy_)
                    save_path = os.path.join(FLAGS.checkpoint_dir, file_name)
                    saver.save(sess, save_path=save_path, global_step=step)

                if step % FLAGS.validation_per_batch == 0:
                    vn_loss_, vn_accuracy_, vn_summary_ = sess.run([loss, accuracy, summary],
                                                                   feed_dict={
                                                                       input_x: mnist.validation.images,
                                                                       input_y: mnist.validation.labels
                                                                   })
                    print("第{}次训练后模型在验证数据上的损失函数为:{}, 准确率:{}".format(step,
                                                                    vn_loss_,
                                                                    vn_accuracy_))
                    validation_writer.add_summary(vn_summary_, global_step=step)

                # 退出训练（要求当前的训练数据集上的准确率至少为0.8，然后最近一次验证数据上的准确率为0.8）
                if accuracy_ > 0.99 and vn_accuracy_ > 0.99:
                    # 退出之前再做一次持久化操作
                    file_name = 'model_%.3f_%.3f_.ckpt' % (loss_, accuracy_)
                    save_path = os.path.join(FLAGS.checkpoint_dir, file_name)
                    saver.save(sess, save_path=save_path, global_step=step)
                    break
                step += 1
            # 关闭输出流
            train_writer.close()
            validation_writer.close()


def prediction():
    # TODO: 参考以前的代码自己把这个区域的内容填充一下。我下周晚上讲。
    # 做一个预测(预测的评估，对mnist.test这个里面的数据进行评估效果的查看)
    with tf.Graph().as_default():
        pass


def main(_):
    if FLAGS.is_train:
        # 进入训练的代码执行中
        print("开始进行模型训练运行.....")
        train()
    else:
        # 进入测试、预测的代码执行中
        print("开始进行模型验证、测试代码运行.....")
        prediction()
    print("Done!!!!")


if __name__ == '__main__':
    # 默认情况下，直接调用当前py文件中的main函数
    tf.app.run()

卷积神经网络之AlexNet(附完整代码)
由于受到计算机性能的影响，虽然LeNet在图像分类中取得了较好的成绩，但是并没有引起很多的关注。知道2012年，...
TORCH03-05AlexNet网络与ImageNet
AlexNet网络是卷积神经网络中也是大名鼎鼎的，这个主题梳理AlexNet相关的材料，以及与之相关的Ima...
CNN之——AlexNet
深度卷积神经网络（AlexNet） AlexNet⾸次证明了学习到的特征可以超越⼿⼯设计的特征 AlexNet与L...
卷积神经网络之GoogLeNet(附完整代码)
2014年，GoogLeNet获得了第一名、VGG获得了第二名（1）参数太多，如果训练数据集有限，很容易产生过拟...
卷积神经网络之GAN(附完整代码)
不管何种模型，其损失函数（Loss Function）选择，将影响到训练结果质量，是机器学习模型设计的重要部分。对...
卷积神经网络之VGG(附完整代码)
前言 VGG是Oxford的Visual Geometry Group的组提出的（大家应该能看出VGG名字的由来了...
[动手学深度学习-PyTorch版]-5.6卷积神经网络-深度卷
5.6 深度卷积神经网络（AlexNet）[https://tangshusen.me/Dive-into-DL-...
无知的一些入门的东西
1、卷积网络的发展深度学习——卷积神经网络的经典网络（LeNet-5、AlexNet、ZFNet、VGG-16、...
CNN
参考：CNN卷积神经网络原理讲解+图片识别应用（附源码）卷积神经网络 – CNN深入学习卷积神经网络（CNN）的原...
深度卷积网络：实例探究
1.经典的卷积网络介绍几种经典的卷积神经网络结构，分别是LeNet、AlexNet、VGGNet。LeNet-5...