美文网首页
Deep Residual Learning for Image

Deep Residual Learning for Image

作者: 哒丑鬼 | 来源:发表于2018-12-05 20:55 被阅读0次

    这篇文章虽然写的是Image Recognition,但是它提出残差网络的思想在其他任务中也有很多应用,具有广泛的借鉴意义。

    背景

    随着网络结构的加深,带来了两个问题:一是vanishing/exploding gradient,导致了训练十分难收敛,这类问题能够通过normalized initialization 和intermediate normalization layers解决;另一个是被称为degradation的退化现象。对合适的深度模型继续增加层数,模型准确率会下滑(不是overfit造成),training error和test error都会很高,相应的现象在CIFAR-10和ImageNet都有出现。


    Deep Residual Network

    ResNet

    作者提出了如上图所示的残差网络结构。原本经过两个layer的映射可以表示为\mathcal { H } ( \mathbf { x } ),现在令\mathcal { F } ( \mathbf { x } ) : = \mathcal { H } ( \mathbf { x } ) - \mathbf { x }。这样原来用于训练\mathcal { H } ( \mathbf { x } )的网络,现在用来训练\mathcal { F } ( \mathbf { x } )\mathcal { F } ( \mathbf { x } )称作残差函数。这个思路跟「Highway Network」很类似,所不同的是Highway Network里面使用了加权和。

    背景中提到56层网络与20层网络的对比,可以做如下假设:在20层网络模型的基础上,增加36层的恒等映射层,结果会与20层的网络相等。但是往往很难训练这样的网络,因为在接近恒等映射的layer,其梯度都非常小。而对于ResNet来说,因为训练目标是残差函数\mathcal { F } ( \mathbf { x } ),就很容易捕捉微小的映射波动。

    相关文章

      网友评论

          本文标题:Deep Residual Learning for Image

          本文链接:https://www.haomeiwen.com/subject/pyqgcqtx.html