美文网首页
图像分割

图像分割

作者: cxm11 | 来源:发表于2019-12-14 21:35 被阅读0次

    图像分割


    什么是图像分割?

    图像分割就是预测图像中每一个像素所属的类别或者物体。图像分割有两个子问题,一个是只预测类别层面的分割,对每个像素标出一个位置。第二个是区分不同物体的个体。

    应用场景,比如自动驾驶、3D地图重建、美化图片、人脸建模等等。


    最常用的数据集

    主要介绍三个: Pascal VOC;CityScapes;MSCOCO。


    传统的图分割:(Graph Cut)

    图切割就是移除一些边,使得两个子图不相连;图切割的目标是,找到一个切割,使得移除边的和权重最小。

    图切割的优点:分割效果还不错,并且是一种普适性的框架,适合各种特征。缺点是时间复杂度和空间复杂度较高,需要事先选取分割块儿的数目。

    图切割的失败案例:Min-Cut失败的情形

    为了克服这个失败,有一篇论文提出了Normalized Cut。它是在图分割中加入权重参数Volume。Volume(A)是A中所有边的权重之和。这种方法平衡了每一个子图的大小。

    可以考虑一下相关的数学推导和代码整理

    https://blog.csdn.net/qq_38476684/article/details/80553850

    图像分割基础算法及实现实例 (一些常见的图像处理matlab代码)

    一些算法:

    基于阈值:根据灰度值

    基于边缘

    基于区域

    基于图论

    基于能量泛函

    可以学习以下相关的理论和概念:最大流、最小割;应用如 目标和背景 分离;但是实际上更可能用于 节点 的模型;对于图像而言计算量会比较大,相对而言不是特别适合,但是相关的思想可以参考借鉴


    深度学习算法

    第一篇比较成功用神经网络做图像分割的论文是 Fully Convolutional Networks (以下简称 FCN)。

    传统神经网络做分类的步骤是,首先是一个图像进来之后经过多层卷积得到降维之后的特征图,这个特征图经过全连接层变成一个分类器,最后输出一个类别的向量,这就是分类的结果。

    而FCN是把所有的全连接层换成卷积层,原来只能输出一个类别分类的网络可以在特征图的每一个像素输出一个分类结果。这样就把分类的向量,变成了一个分类的特征图。

    为了能让分类的特征图恢复到原图的大小,采用了上采样层。

    这里有两个概念,第一个概念叫反卷积层(Deconvolution);第二个概念叫双线性差值上采样(Bilinear Upsampling)。

    这里的「反卷积」其实不是真正的卷积的逆运算,用 Transposed Convolution 代替比较合适,但原论文中用的是 Deconvolution,我们下面还是用这个词,它可以等效于普通卷积。它的主要目的就是实现上采样。

    双线性上采样差值的三个用途:

    • 用作初始化反卷积的权重;(说是比较难训练)

    • 不用反卷积,使用上采样+卷积;

    • 只使用上采样。

    下面介绍膨胀卷积或带洞卷积( Dilated Convolution)

    它的用途可以使特征图视野变大,但不增加计算量,对于图像分割的好处,更利于提取全局信息,这样就使得分割准确率增加很多。

    其本质上是利用了类似信号处理的采样原理,在不增加处理量的情况下,增加了特征视野,更方便利用全局信息,需要考虑尺度或粒度

    特征金字塔( Feature Pyramid)

    • Featurized image pyramid

    • Single feature map

    • Pyramidal feature hierarchy

    • Feature Pyramid Network

    Pyramid Pooling

    利用不同尺度上的信息,关键点是计算复杂度,以及如何更好的结合全局信息和局部信息,从而得到更好的性能

    Mask-RCNN

    多分支输出;Binary Mask;RoiAlign

    • 第一个特点它是多分支输出的。它同时输出物体的类别,bounding box和Mask。

    • 第二个特点是它使用了Binary Mask。之前神经网络都是使用多类Mask,而它只需要判断物体在哪个地方。

    • 最后是RoiAlign层。能比较精确地把物体的位置对应到特征图的位置上。

    Multi-Target Loss:

    • 物体的bounding box

    • 类别

    • 对roi用FCN

    和Fast/er RCNN相对多了一个mask

    采用了Softmask

    Softmask需要同时做分类和mask,身兼数职,sigmoid只要预测mask就好。

    RoI Pooling 与 RoI Align 的比较

    RoIPool breaks pixel-to-pixel translation-equivariance.


    参考:

    1. 带你回顾图像分割的经典算法 https://www.leiphone.com/news/201801/vV9tk5kK95g0spUG.html

    相关文章

      网友评论

          本文标题:图像分割

          本文链接:https://www.haomeiwen.com/subject/xyphnctx.html