美文网首页深度学习
实时语义分割的编解码网络---LEDNET

实时语义分割的编解码网络---LEDNET

作者: 逆风g | 来源:发表于2019-05-13 16:35 被阅读0次

概述

  1. 目前语义分割领域倾向于追求高精度,CNNs由上百个卷积层和上千个通道组成,实时性差。
  • 要求实时性的应用:
    增强现实、机器人、自动驾驶...
  • 相关移动平台:
    遥控飞机、机器人、智能手机...
  • 移动平台的限制:
    续航问题、内存限制、有限的计算力...
  • 为了保持实时性,出现了两类相关研究:
    网络压缩和卷积分解。具体压缩技术包含剪枝(pruning)、量化(quantization)、散列编码(hashing);卷积分解直接使用少量参数的模型并保持较好的精确度
  1. 本文使用不对称编解码网络较好的平衡了准确率和速度的问题:
  • 参数量少于1M
  • 单张GTX 1080ti GPU上71FPS
  • 综合准确率和速度在CityScapes上效果最好
  1. 整体网络模型


编码器部分

残差(residual)通道拆分(split)通道打乱(shuffle)三者构成了编码器的基本模块—split-shuffle-bottleneck(SS-bt)
具体结构如下图d所示:


图a是resnet中基本残差模块,图b组合了1维的卷积核,图b加入了通道打乱技术。图d中可以发现输入分成了两支,每支都有一半的通道数,每支由1维卷积核组成,可以发现里面还包含了膨胀卷积,这里的膨胀因子用于控制感受野,主要用于第3次下采样后的卷积,之后会把两支concat到一起,保持输入输出通道数一致,利用残差思想,加上输入特征,最后通道随机打乱。
具体网络参数如图所示:

SS-bt中不包含下采样,和resnet不一样,这里有专门的Downsampling Unit模块,由两个并行结构组成,一个3x3步长2的卷积核(输出通道数=output-input),另一个是Max-pooling(输出通道数=input),二者会concat到一起。

解码器部分

主要由金字塔状的attention分支全局平均池化分支组成,其中attention这里会做三次下采样和上采样,通过point-wise sum融合不同层信息,对应卷积核大小分别为 3×35×57×7,并通过point-wise product对每个像素点attention;全局池化后点加到attention后的输出结果;最后上采样8倍大小,还原到输入图片尺寸大小。

实验

  • 数据集:cityscape
  • batch_size:5
  • 显卡:GTX 1080Ti GPU
  • 初始学习率:5e-4
  • 学习策略:poly
  • poly对应的power:0.9
  • 动量:0.9
  • 权重衰减:1e-4
    注意:训练时有使用cityscapes的20K张粗略标注图
  1. 与其它实验在准确率和速度上的比较:


  2. 具体分类准确率的对比:


相关文章

网友评论

    本文标题:实时语义分割的编解码网络---LEDNET

    本文链接:https://www.haomeiwen.com/subject/dnalaqtx.html