《TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation》论文笔记

论文链接

TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

论文概述

像素级分割在计算机视觉中是一项艰巨的任务，经典的UNet网络结构在医学影像和卫星图像中非常流行。一般来说神经网权重由一些大型数据集如ImageNet进行初始化后会有更好的效果。在一些实际应用中，尤其是在医学和交通安全方面，模型的精确是至关重要的，本文演示如何使用预训练编码器来改善UNet网络结构，代码见此：https://github.com/ternaus/TernausNet

论文要点概括

经典的UNet网络权重采用随机初始化方式来完成，众所周知训练一个未过拟合的网络需要大量的数据来完成。因此采用经过Imagenet训练后的权重来进行初始化这一方法被广泛应用。通过这种方式来加速学习过程。
此网络编码器部分采用VGG11（VGG11包含7个3x3卷积层，每个层后加一个ReLU，同时进行5次最大池化操作，具体如下图）

VGG11
为构造编码器，这里移除了全连接层替换其为一个512通道的单卷积层来分离编码器和解码器。为构造解码器这里采用转置卷积层放大特征图尺寸并且减少一半原通道数。同时将转置卷积的输出与解码器的相应部分的输出串联。特征图的结果通过卷积操作使得其通道数与对应编码器部分相同。这一上采样过程重复5次对应5次池化操作。传统全连接层可接受任意大小图片输入，但因为此处有5个池化层，每次图像缩小到原来一半，即缩小$2^5=32$倍，因此当前网络要求输入图像大小需要能被32整除。下图为UNet结构与本文网络结构图对比。

TernausNet
UNet
结果与评价