DenseNet的tensorflow实现

作者: leotmc | 来源:发表于2019-03-02 16:53 被阅读6次

DenseNet的tensorflow实现
Pytorch DenseNet Fashion-Mnist
Keras实现 DenseNet
随手记的网址
sigmoid cross entropy loss
SkySeraph AI 实践到理论系列
拼多多学霸批*两轮技术面+HR面
Tensorflow分布式原理理解
1.6 神经网络入门-神经网络实现
DenseNet与其他网络的对比图

这篇博文主要由以下三部分组成
1. DenseNet和ResNet的对比
ResNet的出现，使我们能够训练数更深的网络，ResNet的核心是通过采用Skip-Connection的方式(如图1所示)，使我们在训练非常深的网络的时候也不会出现梯度消失的现象。

图1 ResNet中的skip connection

与ResNet相比，DenseNet采用了一种更为密集的连接方式，即Dense Connection，两者的连接方式对比如图2所示。

图2a ResNet中的连接方式

图2b DenseNet中的连接方式

对比一下，我们会发现，两者的不同在于ResNet是采用的Element-wise addition，DenseNet中采用的是Channel-wise concatenation。
在Resnet中
$x_{l}=H_{l}(x_{l-1})+x_{l-1}$
其中 $x_{l-1}$ 表示第 $l-1$ 层的输出， $x_{l}$ 为第 $l$ 层的输出， $H$ 函数可以看成是卷积层，激活层，池化层的抽象表示。
在DenseNet中
$x_{l}=H_{l}([x_{0},x_{1},...,x_{l-1}])$
其中 $[x_{0},x_{1},...,x_{l-1}]$ 是 $0,...,l-1$ 层的特征的concatenation。
DenseNet通过采用这种密集的连接方式，可以更好的利用每一层的特征，因此DenseNet可以用更少的层达到比ResNet更好的效果。

2. DenseNet的网络结构
由于所选用的层数不同，网络的结构也会有所不同，这里我们对40层的DenseNet的网络结构作一定的说明，40层的DenseNet中有3个dense block和2个transition layer。
DenseNet的网络结构主要由两部分组成，这两部分分别为dense block和transition layer，如图3所示。

图3 DenseNet的网络结构

dense block: 在40层的DenseNet中，每个dense block中有12层，每一层由BN-RELU-CONV组成，由于dense block中采用concatenation的连接方式，因此要保证每一层的feature map的size一样，所以在每一层的CONV中采用 $3\times 3$ 卷积和1的padding来保证经过卷机的处理后feature map的size保持不变。
transition layer: transition layer用来连接前后的两个dense block，由于DenseNet中采用的是concatenation的连接方式，因此经过dense block后，feature map的数量会非常多，在transition layer中采用 $1\times1$ 的卷积来降低feature map的数量，transition layer中还包含有 $2\times2$ 的pooling。

3. 代码
dense block的代码:

    def dense_block(self, p):
        for i in range(self.num_layers_in_dense_block):
            with tf.variable_scope('bottle_neck{0}'.format(i)):
                x = tf.layers.batch_normalization(p)
                x = tf.nn.relu(x)
                x = tf.layers.conv2d(inputs=x, filters=self.growth_rate, kernel_size=3, strides=1, padding='same', kernel_initializer=tf.random_normal_initializer(stddev=0.01))
                x = tf.concat([x, p], axis=3)
                p = x
        return x

transition layer的代码：

    def transition_layer(self, x):
        x = tf.layers.batch_normalization(x)
        x = tf.nn.relu(x)
        n_inchannels = x.get_shape().as_list()[3]
        n_outchannels = int(n_inchannels * self.compression)
        x = tf.layers.conv2d(inputs=x, filters=n_outchannels, kernel_size=1, strides=1, padding='same', kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        x = tf.layers.average_pooling2d(inputs=x, pool_size=2, strides=2)
        return x

完整代码见github，采用的数据集为cifar-10

参考文献: