美文网首页
论文阅读“Exploring Set Similarity fo

论文阅读“Exploring Set Similarity fo

作者: 掉了西红柿皮_Kee | 来源:发表于2022-11-15 11:17 被阅读0次

Wang Z, Li Q, Zhang G, et al. Exploring set similarity for dense self-supervised representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16590-16599.

摘要导读

通过考虑空间对应关系( spatial correspondence),密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而,由于许多类似的误导像素,例如背景,像素级的对应往往有噪声。为了解决这个问题,本文开始探索密集自监督表示学习的集合相似性(SetSim)。由于集合包含更多的语义和结构信息,本文将像素级的相似学习推广到集合的相似学习,以提高鲁棒性。具体来说,通过采取为各视图分配注意特征的方式,本文建立了相应的集合,从而过滤掉可能导致不正确对应的噪声背景。同时,这些注意特征可以保持同一图像在不同视图上的一致性,从而缓解语义上的不一致性。进一步还搜索了集合的跨视图最近邻,并利用结构化的邻域信息来增强其鲁棒性。实验表明提出的方法具有很好的性能。

  • The comparison of existing pixel-wise correspondence with the proposed method

    (a)Pixel-based: 比较所有像素级特征的组合,并最大化最相似的对。
    (b)Geometry-based: 使重叠区域中的特征保持不变,并区分来自不同位置的特征。
    (c) Set-based: 考虑到前序方法的误导性特征和语义不一致,建议在密集的自监督表示学习中探索两个视图之间的集合相似性。首先通过注意特征构建跨视图的对应集合(蓝色和绿色的两个集合),从而过滤具有误导性的特征同时保证同一图片视图之间的coherence;进一步地,寻找跨视图的最近邻(蓝色红圈)用于增强结构近邻信息。

模型浅析
  • Preliminaries
    实例区分是自监督视觉表征学习中广泛使用的一种代理任务(pretext task)。给定无标签数据和一系列预先定义好的数据增强T=[T_1, T_2, \cdots, T_n]。从T中采样增强方法tt',可以针对输入样本I生成query视图I^q=t(I)和key视图I^k=t'(I)。对于每个视图,使用Encoder(包含f和g)抽取image-level的特征p_{img}。紧接着,采用对比损失使得编码之后的p_{img}^q靠近编码后的p_{img}^{k+},远离编码负样本p_{img}^{k-} 其中,p_{img}是经过L2正则化的。
  • Architecture Overview 其中g_{img}由带ReLU的两个全连接层组成,g_{set}由两个1×1的卷积层组成,两层之间用ReLU连接。基于得到的特征,该模型采用一个Matcher来建立跨视图的空间对应集合。最后采用image-level的标准对比损失和set-level的改进的对比损失进行模型优化。
  • Set Similarity Dense Representation Learning
  1. Constructing Corresponding Set
    首先,由于image-level对比损失的引入,使得上层的attention map可以反应出一些较为突出的特征,这对于减轻像素级的误导和语义的不一致性是有效的。
    对于同一输入样本I,使用f进行特征抽取,然后使用卷积映射g_{set}产生feature map: 其中z \in \mathbb{R}^{C \times HW}p \in \mathbb{R}^{C' \times HW}C,C'分别表示不同的通道尺寸。为了构造相应的集合,首先通过计算跨通道维度C'的特征映射z的统计量,得到空间注意映射A: ,并使用Min-Max正则对A进行缩放,并引入阈值\delta来选择不同的向量p_j 其中,j是特征映射p的空间索引,因此p_j \in \mathbb{R}^{C'}
    关于A'(j)的写法让笔者比较困惑,没有明白其对应的具体操作。这里只能是猜测,得到的A'分别与C'个feature vectors进行对应位置相乘,然后判断得到的vector是否大于\delta。如下所示,令C=5, C'=8, HW=169 当然这里还有待考证。
    对于query和view分别进行对应的操作,就可以得到两个视图对应的attentional vectors。
  2. Set2Set-NN Matching Strategy
    在这一部分,假设得到的query和key的attentional vectors数量分别为m和n。对于每个query向量p^q_i,首先与每个key向量p^k_i建立全连通对应s_i。形式如下: 由于阈值\delta的选择,一些有用的向量被从相应的集合中排除。因此,本文设计了新的策略,进一步从key视图中搜索p^q_i的最近邻像素。具体来说,对于p^q_i中的每个向量,通过对z^qz^k的相似性应用一个argmax运算,可以得到其相关的最近邻, 得到每个p^q_i的演化对应集合c_i,其公式为: 由此可知,c_i这里既包含p也包含z
  3. Similarity Learning Objectives
    给定注意查询向量p^q_i和相应的集合c_i,可以直接得到正例对,负例对k_−由关键视图中全局平均合并特征构成的queue提供。因此,set-level的对比损失如下: 由此,完整的损失函数可以表示为如下形式: \lambda为调节损失的超参数,实验中设置为0.5。

本文的创新点主要在于对应set的构建以及改进的set-level的对比损失。笔者对于A'(j)的计算比较困惑,希望各位指正。总得来说使用set-level的对比,避免了pixel-level的误导性和语义不一致性,立意还是较高的。

相关文章

网友评论

      本文标题:论文阅读“Exploring Set Similarity fo

      本文链接:https://www.haomeiwen.com/subject/bvxdxdtx.html