0 前言

Resnet一般用于图像分类问题，它是一种残差网络，其实是从VGG发展而来，可以解决传统网络深度加深而出现的损失增加问题，其实本质也是CNN的一种变种。为什么叫残差网络呢，我们来看下图：

残差网络一个模块

假设有输入X，这是个张量，三维四维都有可能的，经过某一层网络后有一个输出H(X)，神经网络的训练过程就是要学习这个H(x)。
但是从残差网络的图我们可以看出来，残差网络多了一个identity mapping过程，名字起得还挺好，其实就是把这一层的输入不做任何处理直接加到这层网络的输出上。当然经过卷积层的输入输出维度可能有变化，他自己有个采样方法，可以保证维度一致的。方法有两种：直接补0或者采用1×1卷积。
这样的话残差网络实际上学习的是H(X)-X，这也是它名字的来源。

1.Resnet原理

这里我们关注它是怎么具体实现的。

1.1关键组成

residual block/bottleneck模块
残差网络是由一个个residual block构成的，但为了计算方便，Resnet的作者提出来了bottleenck模块。

Resnet模块示意图

上面这个图呢，左边就是传统的连接方式，通过两个卷积网络，得到最后的输出，然后再加上残差。这样做的缺点就是参数太多了，在网络很深的时候，计算量就变大了，于是有人提出了bottleneck，可以有效减少参数量。
bottleneck包括两个1×1的卷积核，关于这个卷积核的作用，有以下几种说法：
（1）升维和降维，比如64的最后成功映射到256
（2）增加非线性，使网络拟合效果更好
（3）减少计算量
BN模块
BN是Batch Normalization，在进行深度网络的构建的时候一般都会用到这一个模块，主要是在梯度下降算法过程中，我们要花很多时间去调参，比如学习率，dropout比率等等。相比之下，BN就好多了：
（1）最好的一点，可以不要dropout和L2正则
（2）可以选择一个较大的学习率，使训练很快收敛
这一层的目的是对数据做一个标准化的处理，可能会改变数据原有的分布情况。比如说上一层学完的数据大部分都大于0，经过Relu这层函数之后，大于0的被激活，强制来个归一化，可能会影响数据的激活效果。这个时候，有人提出了可学习的参数：

归一化方法
Relu模块
Relu就是0-1激活层。
通过以上几个模块的摆放我们就能得到不同结构的Resnet。