美文网首页数字图像处理与计算机视觉(python)
【图像分割模型】全景分割是什么?

【图像分割模型】全景分割是什么?

作者: 有三AI | 来源:发表于2019-06-16 00:42 被阅读0次

    这是专栏《图像分割模型》的第12篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。

    本文是专栏的最后一篇文章,见识过了分割任务中的大量模型,也了解了语义分割与实例分割,这篇文章我们一起来看一下新概念“全景分割”。

    作者 | 孙叔桥

    编辑 | 言有三

    本期论文《Panoptic Segmentation》

    1 全景分割

    与之前介绍的语义分割与实例分割不同,全景分割任务(Panoptic Segmentation)要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中,语义标签指的是物体的类别,而实例id则对应同类物体的不同编号。

    目前,分割任务大多按照不可数目标(stuff类别)和可数目标(things类别)进行单独的分割。造成二者无法统一在同一分割任务下的主要原因是缺少合适的度量矩阵。

    除此之外,全景分割的实现也面临着其他难题。比如,与语义分割相比,全景分割的困难在于要优化全连接网络的设计,使其网络结构能够区分不同类别的实例;而与实例分割相比,由于全景分割要求每个像素只能有一个类别和id标注,因此不能出现实例分割中的重叠现象。

    全景分割效果示例

    全景分割的具体分割形式有以下两点要求:

    图像中的每个像素点都有一个对应的语义类别和一个实例id,如果无法确定可以给予空标注。

    所有语义类别要么属于stuff,要么属于things,不能同时属于二者;且stuff类别没有实例id(即id统一为一个)。

    全景分割与语义分割的关系:

    如果所有的类别都是stuff,那么全景分割除了度量与语义分割不同外,其它相同。

    全景分割与实例分割的关系:

    全景分割中不允许重叠,但实例分割可以;此外,实例分割需要每个分割的置信概率,但全景分割不需要。尽管如此,全景分割内为了辅助机器的辨识,也是可以引入置信概率的概念的。

    2 度量矩阵

    为了将stuff类别和things类别统一在一个分割任务下,全景分割的度量应当具有以下三个性质:

    完整性:对stuff和things类别一视同仁,包含任务中的所有方面。

    可解释性:度量需要具有能够可定义、可理解、可交流的性质。

    简单:有效的度量应当简洁、可复现。

    基于此,全景分割的度量被分为了分割匹配(segment matching)和全景质量计算(panoptic quality computation)两个部分。

    分割匹配:要求IoU(Intersection over Union)严格大于0.5才算匹配,且不可以有重叠区域,限制一个像素只能对应一个标签。

    全景质量计算:对每个类别的全景分割质量的单独计算结果取平均,从而保证分割结果对类别不敏感。

    其中,第二项将每个类别分为三类:true positives(TP)、false positives(FP)和false negative (FN),分别对应配对的分割、不配对的分割和不配对的真值分割。下图中给出了一个示例,分别展示了person类别是如何被划分进上述三类中的。

    综上,全景分割质量的度量由下式定义:

    其中,分子是对所有匹配上的分割求平均IoU;分母后两项是惩罚匹配错误的点,即通过增加分母使得分割质量下降。

    全景分割与现有分割度量的比较:

    与语义分割度量的比较:语义分割度量(像素准确度、平均准确度、IoU)只关注像素级的正确率,而没有考虑实例正确性,因此无法适应things类别的分割任务。

    与实例分割度量的比较:标准的实例分割度量考察平均精度,即每个目标分割的置信概率用于估计precision或recall;然而,这类度量无法适应语义分割和全景分割任务的要求。

    3 数据库及实验结果

    目前就作者已知的全景分割数据库只有Cityscapes、ADE20k和Mapillary Vistas。

    下面是三个数据库的链接,有需要可以自取:

    Cityscapes:https://www.cityscapes-dataset.com/

    ADE20k:http://groups.csail.mit.edu/vision/datasets/ADE20K/

    Mapillary Vistas:

    https://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

    下图是在Cityscapes下的分割结果:

    总结

    《图像分割模型》专栏到这里就全部结束了,希望通过这12期的介绍,能够让大家对图像分割有一个基本的了解。更多信息可以加入星球继续学习和探讨。就这样啦,再见!

    本专栏文章:

    第一期:【图像分割模型】从FCN说起

    第二期:【图像分割模型】编解码结构SegNet

    第三期:【图像分割模型】感受野与分辨率的控制术—空洞卷积

    第四期:【图像分割模型】快速道路场景分割—ENet

    第五期:【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

    第六期:【图像分割模型】多感受野的金字塔结构—PSPNet

    第七期:【图像分割模型】全局特征与局部特征的交响曲—ParseNet

    第八期:【图像分割模型】多分辨率特征融合—RefineNet

    第九期:【图像分割模型】用BRNN做分割—ReSeg

    第十期:【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

    第十一期:【图像分割模型】实例分割模型—DeepMask

    第十二期:【图像分割模型】全景分割是什么?

    如果想加入我们,后台留言吧

    转载文章请后台联系

    侵权必究

    技术交流请移步知识星球

    更多请关注知乎专栏《有三AI学院》和公众号《有三AI》

    相关文章

      网友评论

        本文标题:【图像分割模型】全景分割是什么?

        本文链接:https://www.haomeiwen.com/subject/esfdfctx.html