Wang Z, Li Q, Zhang G, et al. Exploring set similarity for dense self-supervised representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16590-16599.
摘要导读
通过考虑空间对应关系( spatial correspondence),密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而,由于许多类似的误导像素,例如背景,像素级的对应往往有噪声。为了解决这个问题,本文开始探索密集自监督表示学习的集合相似性(SetSim)。由于集合包含更多的语义和结构信息,本文将像素级的相似学习推广到集合的相似学习,以提高鲁棒性。具体来说,通过采取为各视图分配注意特征的方式,本文建立了相应的集合,从而过滤掉可能导致不正确对应的噪声背景。同时,这些注意特征可以保持同一图像在不同视图上的一致性,从而缓解语义上的不一致性。进一步还搜索了集合的跨视图最近邻,并利用结构化的邻域信息来增强其鲁棒性。实验表明提出的方法具有很好的性能。
-
The comparison of existing pixel-wise correspondence with the proposed method
(a)Pixel-based: 比较所有像素级特征的组合,并最大化最相似的对。
(b)Geometry-based: 使重叠区域中的特征保持不变,并区分来自不同位置的特征。
(c) Set-based: 考虑到前序方法的误导性特征和语义不一致,建议在密集的自监督表示学习中探索两个视图之间的集合相似性。首先通过注意特征构建跨视图的对应集合(蓝色和绿色的两个集合),从而过滤具有误导性的特征同时保证同一图片视图之间的coherence;进一步地,寻找跨视图的最近邻(蓝色红圈)用于增强结构近邻信息。
模型浅析
- Preliminaries
实例区分是自监督视觉表征学习中广泛使用的一种代理任务(pretext task)。给定无标签数据和一系列预先定义好的数据增强。从
中采样增强方法
和
,可以针对输入样本
生成query视图
和key视图
。对于每个视图,使用Encoder(包含f和g)抽取image-level的特征
。紧接着,采用对比损失使得编码之后的
靠近编码后的
,远离编码负样本
:
其中,
是经过L2正则化的。
- Architecture Overview
其中
由带ReLU的两个全连接层组成,
由两个1×1的卷积层组成,两层之间用ReLU连接。基于得到的特征,该模型采用一个Matcher来建立跨视图的空间对应集合。最后采用image-level的标准对比损失和set-level的改进的对比损失进行模型优化。
- Set Similarity Dense Representation Learning
- Constructing Corresponding Set
首先,由于image-level对比损失的引入,使得上层的attention map可以反应出一些较为突出的特征,这对于减轻像素级的误导和语义的不一致性是有效的。
对于同一输入样本,使用
进行特征抽取,然后使用卷积映射
产生feature map:
其中
,
,
分别表示不同的通道尺寸。为了构造相应的集合,首先通过计算跨通道维度
的特征映射
的统计量,得到空间注意映射
:
,并使用Min-Max正则对
进行缩放,并引入阈值
来选择不同的向量
:
其中,
是特征映射
的空间索引,因此
。
关于的写法让笔者比较困惑,没有明白其对应的具体操作。这里只能是猜测,得到的
分别与
个feature vectors进行对应位置相乘,然后判断得到的vector是否大于
。如下所示,令
当然这里还有待考证。
对于query和view分别进行对应的操作,就可以得到两个视图对应的attentional vectors。 - Set2Set-NN Matching Strategy
在这一部分,假设得到的query和key的attentional vectors数量分别为m和n。对于每个query向量,首先与每个key向量
建立全连通对应
。形式如下:
由于阈值
的选择,一些有用的向量被从相应的集合中排除。因此,本文设计了新的策略,进一步从key视图中搜索
的最近邻像素。具体来说,对于
中的每个向量,通过对
和
的相似性应用一个argmax运算,可以得到其相关的最近邻,
得到每个
的演化对应集合
,其公式为:
由此可知,
这里既包含
也包含
。
- Similarity Learning Objectives
给定注意查询向量和相应的集合
,可以直接得到正例对,负例对
由关键视图中全局平均合并特征构成的queue提供。因此,set-level的对比损失如下:
由此,完整的损失函数可以表示为如下形式:
为调节损失的超参数,实验中设置为0.5。
本文的创新点主要在于对应set的构建以及改进的set-level的对比损失。笔者对于的计算比较困惑,希望各位指正。总得来说使用set-level的对比,避免了pixel-level的误导性和语义不一致性,立意还是较高的。

网友评论