要解决的问题:
更深的网络难以训练。对于深层的网络可能会出现的梯度消失与梯度爆炸的问题,但是随着初始标准化与中间层标准化操作的出现,已经得到了很好的解决,然而,实验结果表明,深层网络与浅层网络相比误差还要要高,所以文章重点在于使网络变得更深而结果不至于比原来还差。
相关信息:
1、理论上来说,深层网络结果不应该比浅层网络的效果还差。假设浅层的网络已经优化的不错了,那么此时更深的隐藏层只要做一个恒等映射即可。实验结果显示,深层的网络效果反而更差,说明传统网络结构很难学习到恒等映射。
2、对于优化问题来说,学习残差映射要比直接学习映射要更加容易优化。假设输入是,要学习的理想映射为,现在想要用一些堆叠的非线性层来直接拟合可能会存在困难,但如果来拟合就要容易的多,所以有,残差结构的输出为
解决方法:
1、设计的残差结构如下所示:
2、残差块可以如下表示:,我们必须保持F函数输出的维度跟x的一致,不过不一致也没有关系,我们可以通过如下的映射将x转变为跟F一样的维度:,这里文中用的是一种线性变换,即使用了1*1的卷积核来进行改变维度。
一般来说,残差结构包含两个或三个卷积块,如果只有一个文章没有发现优势。
3、网络结构示意:
网友评论