美文网首页数字图像处理与计算机视觉(python)
【图像分割模型】全局特征与局部特征的交响曲—ParseNet

【图像分割模型】全局特征与局部特征的交响曲—ParseNet

作者: 有三AI | 来源:发表于2019-06-12 20:44 被阅读0次

这是专栏《图像分割模型》的第7篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。

尽管多尺度融合、空洞卷积都可以增加网络的感受野,但理论感受野与实际感受野仍然存在差异。那么如何真正利用图像的全局信息呢?ParseNet告诉你。

作者 | 孙叔桥

编辑 | 言有三

本期论文《ParseNet: Looking Wider to See Better》

1 理论感受野是真的吗?

相信通过前面几篇介绍上下文信息整合的文章,大家已经能够体会到感受野对于分割网络效果的影响有多么巨大了。简单来说,感受野越大,网络所能“看见”的区域就越大,从而能够用于分析的信息就更多。由此,分割的效果也很有可能更好。

基于这种考虑,许多算法尝试通过改变自身网络结构设计来增大网络的理论感受野,认为这样就能够为网络带来更多的信息。尽管理论感受野的增大的确能够增加网络所获取的上下文信息,但是,理论感受野难道真的就代表了算法实际看见的区域吗?

在实际应用中,许多方法的理论感受野是很大的。比如前面文章中介绍过的带VGG的FCN网络中的fc7层,其理论感受野为404x404像素。但是,实验却证明,其并没有办法看到这么大的区域。

比如,ParseNet的作者做了这样一个实验,即破坏图像中一个随机区域中的信息,以此来观察网络的输出结果是否依赖于这个区域。结果如下图所示:

从左到右分别为:图像、热度图、理论感受野和实际感受野。

由此可以看出,网络实际上能够覆盖的区域也就能达到整图的1/4左右,远远没有达到理论感受野的尺寸。那么究竟该如何利用全部的图像上下文信息呢?ParseNet提出了一种融合全局信息与局部信息的方法,下面来具体介绍一下。

2 全局特征的提取与融合

如下图所示,ParseNet通过全局池化提取图像的全局特征,并将其与局部特征融合起来。

这种融合在过程中需要考虑两个主要问题:融合的时机与尺度的归一化。

(1) 融合时机

直观上理解,全局特征与局部特征的融合可以发生在两个节点:分别是训练分类器之前(early fusion)和训练分类器之后(late fusion)。其中,前者是将两个特征融合后,作为一个整体共同送入分类网络,训练分类器;后者则是以两个特征为输入,分别训练其对应的分类器,最后再将分类的结果整合。

如果忽略结合特征后的训练过程,那么这两种融合的时机的鲜果是差不多的。但是,在某些情况下,只有全局特征辅助下的局部特征才能够判断出正确的分类结果;此时,如果两个特征分别训练再整合,那么这种情况下的分割损失是不可逆的,也就是说,这些情况下的分类将不正确。

当然,这两种方法在实际应用过程中是可以实现相似的结果的,但是late fusion需要进行归一化。

(2) 归一化

如下图所示,不同层之间的特征的尺度是不同的,而且这种不同可能很显著。(不同颜色代表不同层上的特征)

很显然,这些特征的尺度(scale)和范数(norm)是不同的。如果直接将这些特征级联起来会造成大特征控制小特征,使分割效果变差。尽管在训练过程中,网络的权重可能会对这种情况进行调整,但是这要求非常小心的调参和数据库选取。

因此,ParseNet利用了L2范数来归一化特征的融合过程。具体而言,给定d维输入x,算法通过计算其L2范数并在整个维度内实现归一化。

此外,如果只是单纯地对所有输入层进行归一化,不仅会减慢网络的训练速度,同时也会改变该层的尺度。因此,还需要对其增加一个尺度参数gamma,将归一化的结果进行尺度缩放(缩放结果为y)。

这一过程增加的参数量等于所有的通道数之和,因此在反向传播过程中是可以忽略的。具体的反向传播公式如下:

3 实验结果

下表是ParseNet在PASCAL VOC2012下的数据结果和与其他算法的比较:

其效果与DeepLab-LargeFOV相近。

下图是全局特征有助于分割结果的示例:

从左到右分别为:图像、真值、对比基准和ParseNet。

尽管总体而言,引入更多的上下文信息有助于分割。但是有时候,引入全局信息也可能给分类造成不好的影响,比如下图所示,从左到右分别是原图,真值,FCN以及ParseNet。

总结

本文我们了解了全局信息该如何使用、该注意什么问题。下篇文章我们来看看RefineNet中是如何用残差校正进一步提高分割效果的。今天的分享就是这样啦,下回见。

本专栏文章:

第一期:【图像分割模型】从FCN说起

第二期:【图像分割模型】编解码结构SegNet

第三期:【图像分割模型】感受野与分辨率的控制术—空洞卷积

第四期:【图像分割模型】快速道路场景分割—ENet

第五期:【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

第六期:【图像分割模型】多感受野的金字塔结构—PSPNet

第七期:【图像分割模型】全局特征与局部特征的交响曲—ParseNet

如果想加入我们,后台留言吧

转载文章请后台联系

侵权必究

技术交流请移步知识星球

更多请关注知乎专栏《有三AI学院》和公众号《有三AI》

相关文章

  • 【图像分割模型】全局特征与局部特征的交响曲—ParseNet

    这是专栏《图像分割模型》的第7篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。 尽管多尺度融合...

  • 图像的特征

    图像的特征 对于分割后的图像,图像的区域特征对于图像分析有重要意义,而对于一副分割后的图像区域,主要有以下重要特征...

  • HOG特征描述算子-行人检测

    1. HOG特征简介 HOG特征是一种图像局部特征,基本思路是对图像局部的梯度幅值和方向进行投票,形成基于梯度...

  • PaddlePaddle图像分割七日打卡营心得体会

    一、图像分割综述 所谓图像分割指的是根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域,并使这些特征在...

  • 2019-08-23-MaskRCNN模型

    一、MaskRCNN模型 MaskRCNN模型为图像中的每个对象实例同时生成边界框和分割掩码。 它基于特征金字塔网...

  • U-net深度思考

    1、为什么好? 我们可以看到,它能够结合图像的全局与局部细节方面的特征,进行综合的考虑。每经过几次卷积后,便会co...

  • resnet18实现dual pooling

    max pooling更注重重要的局部特征average pooling更关注全局特征两者concat可以丰富特征...

  • 医疗图像分割方法综述

    图像分割的目的就是把目标从背景中提取出来, 分割过程主要基于图像的固有特征, 如灰度、纹理、对比度、亮度、彩色特征...

  • 全卷积网络《Fully convolution networks

    论文链接 卷积网络 能够自动的学习图像的不同特征,较浅层(感受野小)学习到图像的局部区域特征;较深层(感受野大)学...

  • GLNet

    全局-局部的超分辨率图像分割方法 GLNet:Collaborative Global-Local Network...

网友评论

    本文标题:【图像分割模型】全局特征与局部特征的交响曲—ParseNet

    本文链接:https://www.haomeiwen.com/subject/ebvrfctx.html