论文地址:https://arxiv.org/abs/1806.03348
该论文提出了一个基于层的深度语义分割图像压缩框架,输入图像的语义分割映射能够被获得并被编码为基层比特流。
生成输入图像的一个压缩表示并编码作为第一层提高层。
语义映射与压缩表示一起用于生成图像的粗糙重构。输入图像与粗重构之间的误差编码作为第二层提高层。
Framework
Encoder.png编码器包含:SegNet,CompNet,FineNet。
首先使用SegNet获得输入图像X的语义分割标签S。
之后,S作为一个边信息用于CompNet,与X一起生成一个低维的压缩图像c。
重构网络能够利用语义映射与压缩图像生成一个高质量的重构。
在重构部分中,c首先被上采样成原始大小,c'为上采样图像。c'与S一起进入FineNet。
FineNet实际上为生成对抗网络中的生成网络,框架来源于其他论文。
为了减小合成图像的失真,修改了现有的基于分段的合成框架,并添加了压缩图像c的上采样版本作为额外的输入。训练FineNet用于学习c‘相对于输入图像的缺失的一部分精细信息。
得到FineNet的结果之后与c’相加得到输入图像的一个估计值。
在该框架中,即使没有获得语义标签s,仅仅通过c,FineNet网络也可以获得一个好结果。
最后获得原始图像与估计值之间的残差r,通过BPG编码器编码。
语义s作为基础层,压缩图像c与残差r分别作为第一和第二提高层。
Decoder.png
解码器端解码之后的s与c都被用于重构输入图像的估计值。重构网络的输出在与解码之后的残差r相加即可得到最后的重构图像。
Objective Functions
损失函数只计算了原始图像x与估计值x'之间的误差,是由一个losses组合构成:
L1范式,SSIM,以discriminator和VGG为基础的感知函数,GAN损失函数。
1.因为L1范式作loss与SSIM的loss相结合能够提高图像重构质量。
2.为了稳定生成器的训练并生成自然统计量,采用了基于识别器和VGG网络的两种感知特征匹配损失。
3.为了区分真实图像x还是重构图像x',应该最小化判别函数的loss。
4.最后生成函数的损失包括:
5.总的损失函数包括生成器和判别器的损失:
Training
数据集:Cityscapes(30个语义标签)2974张images size为:5121024
ADE20K(150个语义标签)9272张images
训练期间的images大小都被裁剪为256256大小。
下采样因子为8
损失函数的权重λ为10.
模型训练150个epochs
采用了随机梯度下降算法(SGD)
优化器为Adam算法,学习率初始值为0.0002
网友评论