Annotating Object Instances with a Polygon-RNN 简介

reference：https://arxiv.org/abs/1704.05548

作者 Llu´ıs Castrejon , Kaustav Kundu , Raquel Urtasun , Sanja Fidler
Department of Computer Science
University of Toronto

Introduction

现在的图像识别检测方法效果很好，但是他们都很依赖于数据集。给大型数据集标注是耗时且昂贵的。那些对标注要求不高的弱监督学习方法即使保证了准确性，但还是不如那些使用很棒的数据集的完全监督学习方法准确度高。而那些使用bounding box 数据标注的方法结果也必然不够精确。所以本文意图提供一个交互式的准确进行物体标注的方法来提高数据标注的效率。本文使用了RNN网络来对物体进行描边。输入是裁剪的图片，输出是物体周围的多边形轮廓。

image.png

Related work

参考了semi-automatic image annotation和object instance segmentation方法

semi-automatic image annotation
通常有GrabCut, CNN等方法来快速的标记物体和背景（可能涉及的图像分割技术 Graph Cut 和GrabCut参考https://blog.csdn.net/mmm_jsw/article/details/83866624）。但是这些方法定义的图形模型是精确到像素的，以平滑项为像素间的主要关系，这就很难结合形状先验方法，而这在由阴影，图像饱和度及低分辨率影响的模糊不清的地方尤为重要。所以这些方法产生的标记不够准确到能作为官方benchmark。
object instance segmentation
大多数此类方法是像素级的操作，在box中利用CNN进行标记。和本文方法最像的是先检测边缘片段，再找到将这些相关区域组合的最优环。

Polygon-RNN

通过输入用户框起来的物体，来用RNN生成包含物体的多边形轮廓，用户可以在其中任何一步修改这个轮廓。

Model Architecture

image.png

通过对VGG网络的修改，并对采取金字塔方式同时抽取宏观和微观特征。其中宏观特征用于确定物体，微观特征用于确定边界。通过对各层进行上采样及池化操作，将他们concate起来，作为一整个特征图。然后把这个特征图输入之一给RNN，本文中使用convolutional LSTM。convolutional LSTM的公式如下

image.png

使用双层convolutional LSTM，3*3的卷积核及16个channel，该模型在每一步输出一个顶点，该顶点用D*D+1网格的one-hot编码表示。
在此convolutional LSTM训练过程中，输入为特征图，以及在第t步时，还需要输入第t-1及t-2步的顶点位置。

Training

一些参数设置

Inference and Annotators in the Loop

标记人员可以在任何一步修改RNN的预测输出

Implementation details

输出的多边形维度是D*D的，D=28，并且消除了在线上的顶点以及在一个网格中的顶点。总共使用了三种数据增强方法

翻转裁剪图像及对应的多边形标注
随机扩大了原来的bounding box周围的环境图像的大小，大约扩大了10%-20%
随机选择了多边形标注的起始点

Results

使用了Cityscapes和KITTI数据集

Cityscapes

介绍了一下数据集的相关情况

image.png

Prediction Mode

比对方法是DeepMask和SharpMask。这两个方法用了在COCO数据集上预训练过的50层ResNet来进行标注，本文方法相比这两个方法，额外提供了人工修改这一步骤，可以改善输出结果。
另外还添加了SquareBox和Dilation10方法。
实验表格展示了结果，评判标准是IoU，其中本文方法在6类物体的标注中表现最好。另外，本文方法对于小物体的预测较好而在大型物体上不如其他方法。