这篇论文的核心是通过显著性估计的方法将图像前景粘贴到其他背景图像中,进行对比学习,对比学习部门完全沿用现用方法,所以应用在下游任务如检测,单实例多实例的矛盾仍然没有解决,但是本文尝试解决解决的是通过复制粘贴的方式学到背景不变性,学到了背景不变性意味着模型学习到了区分前后景,对检测任务是有帮助的。
摘要:
现有的自监督学习的一大缺陷是无法定位前景目标,导致其无法提取有判别力的高级特征。本文提出的方法是先估计图像显著性,然后将前景目标粘贴在一系列背景图像上。经过此方法后,自监督学习的方法仍然遵循实例分类,所以训练的表征希望能够抛弃背景内容,集中于前景目标上。
1. Introduction
现有的SSL的代理任务是实例判别(instance discrimination),不变性从低级图像的数据增强( spatial cropping and color jittering)种学习得到。
现有的SSL缺乏定位前景目标的能力,学习到的表征可以主要有背景像素决定。这是因为SSL把图像中的每个位置倾向于认为是相等重要的。
作者假设驱动位置的学习信号来自于类别级别的监督标签,因为背景内容通常在不同的类别中是通用的,而在同一类中,显著的只有情景目标。
image.png
自监督与监督学习在定位能力上的差异,促使作者从自监督的表征中蒸馏出位置信息,做法为对图像估计出前景目标显著mask,将其粘贴在不同背景图像中。对同一前景目标粘贴在不同背景进行对比学习,这使得表征具有背景不变性,从而具备对于前景目标的定位能力。
Revisiting Contrastive Learning
与监督的表征相比,非监督的表征能够从数据增强中获益更多。
image.png
通过梯度观察监督型学习与自监督学习的差异,可见,监督型学习的梯度集中在目标上,而SSL的梯度在前景和背景上都有。因为SSL通过数据增强学习到不变性,数据增强将前景与背景的像素点以相同方式对待,SSL没有设计损失函数来驱动模型发现目标。
image.png
通过监督学习训练好的BASNet进行显著性估计。
粘贴数据集有三种,Grayscale,Texture,Imagenet
image.png
DiLo: Distilling Localization via Background Invariance
本文的目的是学习到前景目标能够被自动定位的目标。这种目标定位的能力通过对于背景不变性的蒸馏而来。
实验
image.pngt2(b)对全部数据都进行粘贴性能会下降,粘贴30%-50%的数据会对性能有提升。
t2(c)可得Texture提升有限,Grayscale和Imagenet提升相近。
将本文方法加到moco种,可以看到梯度集中在目标上。
网友评论