残差层

作者: LuDon | 来源:发表于2019-07-04 17:38 被阅读0次

残差层
DenseNet与其他网络的对比图
卷积层的残差链接
残差网络RseNet
Deep Networks with Stochastic De
RealFormer: 残差式 Attention 层的Tran
回归模型的诊断：残差及模型诊断
残差网络ResNet代码解读
经典卷积网络之Resnet50
富有美感的设计-残差连接Residual connection

引言

在VGG中，随着网络层数的增多，往往伴随着以下几个问题：

计算资源的消耗（通过增加GPU来解决）
模型容易过拟合（采集海量数据，使用dropout正则化）
产生梯度消失和梯度爆炸（使用batch norm）
但是这些方法并不一定总是能解决问题。

从信息论的角度来看，由于DPI（数据处理不等式）的存在，在前向传输的过程中，随着层数的加深，特征图包含的图像信息会越来越少，而resnet的直接映射的加入，保证了 $l+1$ 层的网络包含的信息一定比第 $l$ 层的多。

残差网络

残差块

残差块的结构如下图所示。

一个残差块可以表示为：

由两个部分组成：直接映射和残差部分。
对于残差块更一般的表示：

假设1： $h(.)$ 是直接映射
假设2： $f(.)$ 是直接映射
则残差块可以表示为
$x_{L} = x_l + \sum^{L-1}_{i=1}F(x_l, W_l)$
$L$ 层可以表示为任意一个比它浅的层和他们之间残差部分的和；
$x_{L} = x_0 + \sum^{L-1}_{i=1}F(x_l, W_l)$
损失函数 $loss$ 关于 $x_l$ 的梯度为
$\frac{dloss}{dx_l} = \frac{dloss}{dx_ L} \frac{dx_L}{dx_l} = \frac{dloss}{dx_ L} (1 + \frac{d}{dx_l} \sum ^{L-1}_{i=1}F(x_i, W_i))$
在整个训练过程中， $\frac{d}{dx_l} \sum ^{L-1}_{i=1}F(x_i, W_i)$ 不可能一直为-1，所以残差网络中一般不会出现梯度消失的问题
$\frac{dloss}{dx_ L}$ 表示L层的梯度可以直接传递到任何一个比它浅的层。
因此，在假设1和假设2满足的情况下，信息可以很通畅的在高层和底层之间相互传导。

对于假设1，假设 $h(x_l) = \lambda_{l} x_l$ ，则残差块可以表示为：
$x_{l+1}= \lambda_{l} x_l + F(x_l, W_l)$
对于更深的层
$x_L = (\prod_{i=l}^{L-1} \lambda_l)x_l + \sum_{i=l}^{L-1}(\prod_{i=l}^{L-1} \lambda_l)F(x_l, W_l)$
现只考虑公式的左半部分：
$\frac{dloss}{dx_l} = \frac{dloss}{dx_L} (\prod_{i=l}^{L-1} \lambda_i)$

当 $\lambda > 1$ 时，很可能发生梯度爆炸
当 $\lambda < 1$ 时，梯度变成0，会阻碍残差网络信息的方向传递。
$\lambda$ 必须等于1。

残差层
引言在VGG中，随着网络层数的增多，往往伴随着以下几个问题：计算资源的消耗（通过增加GPU来解决）模型容易过...
DenseNet与其他网络的对比图
34层残差网络残差网内部如下: DenseNet如下 DenseNet的主体框架（在每个Dense Block内...
卷积层的残差链接
主要是实现卷积层的残差链接 '''from keras.layers import Conv2D, MaxPoo...
残差网络RseNet
残差网络解决了什么问题残差网络是为了解决深度神经网络（DNN）隐藏层过多时的网络退化问题而提出。退化（degr...
Deep Networks with Stochastic De
paper github 关键词：随机深度通过随机del掉一些block，将残差层改为identity层实现可...
回归模型的诊断：残差及模型诊断
残差有很多种类，如普通残差(ordinary residual),皮尔森残差(Pearson residual),...
残差网络ResNet代码解读
残差网络效果卷积神经网络CNN的发展历史如图所示：从起初AlexNet的的8层网络，到ResNet的152层网...
经典卷积网络之Resnet50
Resnet50模型前言 Residual net(残差网络)：将靠前若干层的某一层数据输出直接跳过多层引入到后...
富有美感的设计-残差连接Residual connection
tip：Residual connection 残差连接是resnet的基本层构造。这么是一个怎样高大上的设计呢...