Wang Z, Li Q, Zhang G, et al. Exploring set similarity for dense self-supervised representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16590-16599.
摘要导读
通过考虑空间对应关系( spatial correspondence),密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而,由于许多类似的误导像素,例如背景,像素级的对应往往有噪声。为了解决这个问题,本文开始探索密集自监督表示学习的集合相似性(SetSim)。由于集合包含更多的语义和结构信息,本文将像素级的相似学习推广到集合的相似学习,以提高鲁棒性。具体来说,通过采取为各视图分配注意特征的方式,本文建立了相应的集合,从而过滤掉可能导致不正确对应的噪声背景。同时,这些注意特征可以保持同一图像在不同视图上的一致性,从而缓解语义上的不一致性。进一步还搜索了集合的跨视图最近邻,并利用结构化的邻域信息来增强其鲁棒性。实验表明提出的方法具有很好的性能。
-
The comparison of existing pixel-wise correspondence with the proposed method
(a)Pixel-based: 比较所有像素级特征的组合,并最大化最相似的对。
(b)Geometry-based: 使重叠区域中的特征保持不变,并区分来自不同位置的特征。
(c) Set-based: 考虑到前序方法的误导性特征和语义不一致,建议在密集的自监督表示学习中探索两个视图之间的集合相似性。首先通过注意特征构建跨视图的对应集合(蓝色和绿色的两个集合),从而过滤具有误导性的特征同时保证同一图片视图之间的coherence;进一步地,寻找跨视图的最近邻(蓝色红圈)用于增强结构近邻信息。
模型浅析
- Preliminaries
实例区分是自监督视觉表征学习中广泛使用的一种代理任务(pretext task)。给定无标签数据和一系列预先定义好的数据增强。从中采样增强方法和,可以针对输入样本生成query视图和key视图。对于每个视图,使用Encoder(包含f和g)抽取image-level的特征。紧接着,采用对比损失使得编码之后的靠近编码后的,远离编码负样本: 其中,是经过L2正则化的。 - Architecture Overview 其中由带ReLU的两个全连接层组成,由两个1×1的卷积层组成,两层之间用ReLU连接。基于得到的特征,该模型采用一个Matcher来建立跨视图的空间对应集合。最后采用image-level的标准对比损失和set-level的改进的对比损失进行模型优化。
- Set Similarity Dense Representation Learning
- Constructing Corresponding Set
首先,由于image-level对比损失的引入,使得上层的attention map可以反应出一些较为突出的特征,这对于减轻像素级的误导和语义的不一致性是有效的。
对于同一输入样本,使用进行特征抽取,然后使用卷积映射产生feature map: 其中,,分别表示不同的通道尺寸。为了构造相应的集合,首先通过计算跨通道维度的特征映射的统计量,得到空间注意映射: ,并使用Min-Max正则对进行缩放,并引入阈值来选择不同的向量: 其中,是特征映射的空间索引,因此。
关于的写法让笔者比较困惑,没有明白其对应的具体操作。这里只能是猜测,得到的分别与个feature vectors进行对应位置相乘,然后判断得到的vector是否大于。如下所示,令 当然这里还有待考证。
对于query和view分别进行对应的操作,就可以得到两个视图对应的attentional vectors。 - Set2Set-NN Matching Strategy
在这一部分,假设得到的query和key的attentional vectors数量分别为m和n。对于每个query向量,首先与每个key向量建立全连通对应。形式如下: 由于阈值的选择,一些有用的向量被从相应的集合中排除。因此,本文设计了新的策略,进一步从key视图中搜索的最近邻像素。具体来说,对于中的每个向量,通过对和的相似性应用一个argmax运算,可以得到其相关的最近邻, 得到每个的演化对应集合,其公式为: 由此可知,这里既包含也包含。 - Similarity Learning Objectives
给定注意查询向量和相应的集合,可以直接得到正例对,负例对由关键视图中全局平均合并特征构成的queue提供。因此,set-level的对比损失如下: 由此,完整的损失函数可以表示为如下形式: 为调节损失的超参数,实验中设置为0.5。
本文的创新点主要在于对应set的构建以及改进的set-level的对比损失。笔者对于的计算比较困惑,希望各位指正。总得来说使用set-level的对比,避免了pixel-level的误导性和语义不一致性,立意还是较高的。
网友评论