摘要

本论文解决了半监督视频物体分割的问题，即只给第一帧的掩模（mask）从视频背景中分离出物体。我们提出OSVOS的方法，该方法基于神经网络结构，可以成功将ImageNet数据集学习到的特征迁移到视频分割任务中，并且以极大的优势取得了state-of-the-art水平。

1.介绍——从预训练网络到OSVOS

卷积神经网络在图像分类、物体检测、图像分割等任务中取得了巨大成功，但是一个严重的问题是依赖于大量的训练数据。这篇论文研究了如何只给定一帧图片的掩模将视频中的物体分割出来，提出了一种半监督视频分割CNN模型：OSVOS。图1展示了OSVOS的结果，红色是第一帧掩模，绿色是预测结果。

图1

本文第一个贡献是将图像识别任务中的预训练CNN模型迁移到只有一张图片标注（one-shot）的视频分割任务中。然后，将它在人工分割的视频数据集上训练。最后在测试阶段，只在一帧人工标注的图片finetune。图2展示了这一方法的概览。

图2

第二个贡献是OSVOS独立处理视频的每一帧，同时以副产品的形式取得了不错的时间连续性。考虑到物体在两帧之间变化不大，我们独立处理每一帧图片，与主流方法着重考虑时间连续性不同。这些主流方法在渐变的连续帧之间取得了不错的分割性能，但是对于遮挡和不完整的运动情况效果不太好。运动检测确实是当前视频分割算法中的关键组成，但是相关计算却是一个很大的问题。我们认为时间连续性并不是现在一定要考虑的问题，我们更应该关注如何提高分割的准确性。另一方面，我们的模型也展示了深度学习的方法在独立处理每一帧时也能保证优异的时间连续性。自然的，OSVOS有以下有点：在遮挡时也可以进行分割，不局限与某些运动，不需要处理时序信息也就没有时序错误累积。

第三个贡献是OSVOS可以在速度与准确性的权衡之间作多种选择。用户可以选择更高准确率或者更高分割速度，实验显示OSVOS每帧181ms的速度可以取得71.5%的准确率，每帧7.83s的速度取得79.7%的准确率。另外，用户可以标注更多的视频帧来提高准确率，实验显示每个视频标注2张可以取得84.6%的准确率，标注4张可以取得86.9%的准确率。

2.相关工作

视频物体分割与跟踪

大多数半监督视频物体分割强调时间连续性，通过前一帧的掩模来预测下一帧的掩模，同时为了减少计算会使用superpixels，patches，object proposals等方法。与这些方法不同，OSVOS独立处理每一帧，更准确更快速。对于视觉跟踪（使用边界框替代分割）的情况也是类似。

用于分割的全卷积神经网络

全卷积神经网络（FCNs）大大推进了语义分割任务的进度。FCN的作者将最后的全连接层改为1×1的卷积，这样可以训练任意大小的图片，并且大大减少网络参数，同时也需要较少的标记数据。反卷积层可以用于上采样，在预测感兴趣区域过程中很有作用，但是这种结构训练参数庞大并且需要大量数据。受到FCNs的启发，深度网络的中间网络层也被用来作轮廓检测。

3.One-Shot 深度学习

我们训练了用于分离前景和背景的二元FCN，接着又在包含物体的大量数据上训练通用前景物体识别模型（“It is this particular object.” ），最后在一个小的特定实例上finetune以分割出特定物体（“It is this particular object.” ）。

3.1. 端到端可训练前景FCN

4.实验验证

5.结论

使用深度学习方法分割视频物体依赖于大量训练数据，而人类则需要一个训练样本，这篇论文表明了计算机也可以复制这种能力：我们提出的OSVOS，在通用数据集预训练神经网络并在一张训练样本上finetune，最终在DAVIS数据集上取得state-of-the-art水平。我们独立处理每一帧，但是分割结果依然取得很好的时间连续性。