论文地址:https://arxiv.org/abs/1904.02216
旷世CVPR2019的论文,对高清图像分割效果SOTA的同时,还能做到实时,十分惊艳。总体来看其策略是在采用轻量级网络的同时,通过“花样”的特征融合来保证最终分割的效果。
1、网络的backbone采用Xception网络,主要是考虑到网络的轻量级,同时在网络末尾添加FC层,引入注意力机制;
2、深度特征聚合,特征聚合分为两种,sub-stage和sub-network ,通过特征复用提高网络性能;
3、decoder部分轻量化,提高网络运算速度;
Xception
Xception是在Inception V3的基础上,引入depthwise convolution,其目的是在相同参数量的情况下,提高网络的性能,由于引入depthwise convolution结构,使得该网络结构在运行效率上也有一定的优势。目前轻量级几乎都是depthwise convolution的变体,不知道什么时候会被颠覆。
Xception的depthwise convolution同mobilenet中的最大的不同之处是,1x1卷级核的位置不同,mobilenet中是先进行逐通道卷积运算,再使用1x1卷积进行通道融合,Xception是个相反的操作,如图
首先进行通道融合,之后再将通道分离,进行卷积,其中1X1后面加了ReLU激活函数,增加非线性。既然同样是轻量级网络为什么选用后者,经查阅资料,个人认为Xception的inception结构的基础,使得其在性能上更有优势一些,mobilenet则是更注重速度方面的提升。
该文对xception结构做了修改,最终的结构如下图
Atention
注意力机制的引入
该文在xception后引入全链接来实现注意力机制,
Deep Feature Agragation
深度特征融合分为两部分,sub-network和sub-stage
sub-network,网路整体由三个backbone组成,每个backbone的结构一致,都是Xception+FC atention,可以看作三个sub-network,在每个network的最后会做一个上采样,然后将上采样之后的图作为下一个网络的输入,由置顶图可以看出,三个network的通道数和特征图大小在递减,该过程可以看作是一个由corse to fine的过程
sub-stage,指图中网络中间部分由上向下的结合,即底层结构信息和高层语义信息相结合,在网路结构较深的情况下,保留结构信息
参考链接
https://blog.csdn.net/kevin_zhao_zl/article/details/90200955
https://zhuanlan.zhihu.com/p/32746221
https://blog.csdn.net/baidu_27643275/article/details/90301814
网友评论