研究问题的引入:
深度卷积神经网络在目标分类方面已经取得了杰出的效果,也已经成为了密集预测任务的首选,如语义分割。然而,这种网络也存在一定的问题,随着网络中不断的池化操作与下采样,图片的分辨率会逐渐降低。为了解决这个问题,论文提出了一种多路refine的网络,搜集采样过程中的可用信息,利用远距离残差连接来做出较高分辨率的预测。
相关背景介绍:
语义分割对图片的理解至关重要,近来的几年,深度卷积神经网络在识别方面取得了较大的成功,但对于密集预测任务,仍有一定的不足,原因就是频繁的池化操作与卷积步长的设置会导致最终的结果分辨率降低。对于这个问题,目前主要有两种解决方案:其一是利用某些上采样的操作,但这种解卷积的操作虽然可以恢复分辨率,但并不能找回池化与卷积过程中丢失的空间信息;Deeplab提出的空洞卷积虽然可以避免这个问题,但其耗费的计算资源较大;其二是利用网络的中间层的语义信息来生成较高分辨率的预测结果。论文解决这个问题采用了第二个方案,主要做出来以下四个贡献:
1) 提出了RefineNet网络,利用不同层的特征来完成语义分割。主要利用递归的方式,使用了低水平的特征来生成高分辨率的图像。
2)可进行端到端的训练。
3)提出了链式残差池化,可以在较大的图像区域上捕获background context。
4)在不同的训练集上表现都很好。
问题的解决:
1、Multi-Path Refinement:
这种结构可以实现将粗糙的较高层次的语义特征与精细的较低层次的语义特征结合起来,来生成高分辨率的语义分割图片。
利用了ResNet网络,在四种不同的下采样阶段中,将特征图输入到refineNet模块中,产生融合后的特征图。除了refineNet4之外,每一个refineNet模块都有两个输入,一个是本阶段的特征图,另一个是低层产生的经过处理的特征图,这样随着下采样的进行,语义信息也逐渐丰富,最终得到的得分图,经过上采样操作恢复原有图片大小。
2、RefinNet:
每一个refineNet模块的具体结构如下所示:
每一个refineNet模块都有四部分组成,第一个是残差卷积单元,用来调整预训练的权重;第二个是多分辨率融合单元,实现不同分辨率特征图的融合;第三部分是链式残差池化,用来捕获background context;最后一个是输出卷积单元,处理结果用于最终的预测。
3、恒等映射
使用了恒等映射的原理,方便进行端到端的处理。
网友评论