论文阅读“Exploring Set Similarity fo

作者: 掉了西红柿皮_Kee | 来源:发表于2022-11-15 11:17 被阅读0次

论文阅读“Exploring Set Similarity fo
2019-06-20
1063 Set Similarity （25 分）(set以及
[总结] Exploring Visual Informatio
[总结] Exploring Visual Informatio
论文阅读笔记 RPT: Learning Point Set R
推荐系统遇上深度学习(三十三)--Neural Attentiv
文献笔记八十五：拟南芥小RNA数据库
simHash 文档指纹去重算法
MySQL修改root密码的多种方法

Wang Z, Li Q, Zhang G, et al. Exploring set similarity for dense self-supervised representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16590-16599.

摘要导读

通过考虑空间对应关系（ spatial correspondence），密集自监督表示学习在各种密集预测任务上取得了优异的性能。然而，由于许多类似的误导像素，例如背景，像素级的对应往往有噪声。为了解决这个问题，本文开始探索密集自监督表示学习的集合相似性（SetSim）。由于集合包含更多的语义和结构信息，本文将像素级的相似学习推广到集合的相似学习，以提高鲁棒性。具体来说，通过采取为各视图分配注意特征的方式，本文建立了相应的集合，从而过滤掉可能导致不正确对应的噪声背景。同时，这些注意特征可以保持同一图像在不同视图上的一致性，从而缓解语义上的不一致性。进一步还搜索了集合的跨视图最近邻，并利用结构化的邻域信息来增强其鲁棒性。实验表明提出的方法具有很好的性能。

The comparison of existing pixel-wise correspondence with the proposed method
(a)Pixel-based: 比较所有像素级特征的组合，并最大化最相似的对。
(b)Geometry-based: 使重叠区域中的特征保持不变，并区分来自不同位置的特征。
(c) Set-based: 考虑到前序方法的误导性特征和语义不一致，建议在密集的自监督表示学习中探索两个视图之间的集合相似性。首先通过注意特征构建跨视图的对应集合（蓝色和绿色的两个集合），从而过滤具有误导性的特征同时保证同一图片视图之间的coherence；进一步地，寻找跨视图的最近邻（蓝色红圈）用于增强结构近邻信息。

模型浅析

Preliminaries
实例区分是自监督视觉表征学习中广泛使用的一种代理任务（pretext task）。给定无标签数据和一系列预先定义好的数据增强 $T=[T_1, T_2, \cdots, T_n]$ 。从 $T$ 中采样增强方法 $t$ 和 $t'$ ，可以针对输入样本 $I$ 生成query视图 $I^q=t(I)$ 和key视图 $I^k=t'(I)$ 。对于每个视图，使用Encoder（包含f和g）抽取image-level的特征 $p_{img}$ 。紧接着，采用对比损失使得编码之后的 $p_{img}^q$ 靠近编码后的 $p_{img}^{k+}$ ，远离编码负样本 $p_{img}^{k-}$ ：其中， $p_{img}$ 是经过L2正则化的。
Architecture Overview 其中 $g_{img}$ 由带ReLU的两个全连接层组成， $g_{set}$ 由两个1×1的卷积层组成，两层之间用ReLU连接。基于得到的特征，该模型采用一个Matcher来建立跨视图的空间对应集合。最后采用image-level的标准对比损失和set-level的改进的对比损失进行模型优化。
Set Similarity Dense Representation Learning

Constructing Corresponding Set
首先，由于image-level对比损失的引入，使得上层的attention map可以反应出一些较为突出的特征，这对于减轻像素级的误导和语义的不一致性是有效的。
对于同一输入样本 $I$ ，使用 $f$ 进行特征抽取，然后使用卷积映射 $g_{set}$ 产生feature map：其中 $z \in \mathbb{R}^{C \times HW}$ ， $p \in \mathbb{R}^{C' \times HW}$ ， $C,C'$ 分别表示不同的通道尺寸。为了构造相应的集合，首先通过计算跨通道维度 $C'$ 的特征映射 $z$ 的统计量，得到空间注意映射 $A$ : ，并使用Min-Max正则对 $A$ 进行缩放，并引入阈值 $\delta$ 来选择不同的向量 $p_j$ ：其中， $j$ 是特征映射 $p$ 的空间索引，因此 $p_j \in \mathbb{R}^{C'}$ 。
关于 $A'(j)$ 的写法让笔者比较困惑，没有明白其对应的具体操作。这里只能是猜测，得到的 $A'$ 分别与 $C'$ 个feature vectors进行对应位置相乘，然后判断得到的vector是否大于 $\delta$ 。如下所示，令 $C=5, C'=8, HW=169$ 当然这里还有待考证。
对于query和view分别进行对应的操作，就可以得到两个视图对应的attentional vectors。
Set2Set-NN Matching Strategy
在这一部分，假设得到的query和key的attentional vectors数量分别为m和n。对于每个query向量 $p^q_i$ ，首先与每个key向量 $p^k_i$ 建立全连通对应 $s_i$ 。形式如下：由于阈值 $\delta$ 的选择，一些有用的向量被从相应的集合中排除。因此，本文设计了新的策略，进一步从key视图中搜索 $p^q_i$ 的最近邻像素。具体来说，对于 $p^q_i$ 中的每个向量，通过对 $z^q$ 和 $z^k$ 的相似性应用一个argmax运算，可以得到其相关的最近邻，得到每个 $p^q_i$ 的演化对应集合 $c_i$ ，其公式为：由此可知， $c_i$ 这里既包含 $p$ 也包含 $z$ 。
Similarity Learning Objectives
给定注意查询向量 $p^q_i$ 和相应的集合 $c_i$ ，可以直接得到正例对，负例对 $k_−$ 由关键视图中全局平均合并特征构成的queue提供。因此，set-level的对比损失如下：由此，完整的损失函数可以表示为如下形式： $\lambda$ 为调节损失的超参数，实验中设置为0.5。

本文的创新点主要在于对应set的构建以及改进的set-level的对比损失。笔者对于 $A'(j)$ 的计算比较困惑，希望各位指正。总得来说使用set-level的对比，避免了pixel-level的误导性和语义不一致性，立意还是较高的。

论文阅读“Exploring Set Similarity fo
Wang Z, Li Q, Zhang G, et al. Exploring set similarity fo...
2019-06-20
推荐系统论文阅读（一）利用用户和物品的分层结构论文 Exploring Hierarchical Structu...
1063 Set Similarity （25 分）(set以及
1063 Set Similarity （25 分） Given two sets of integers, th...
[总结] Exploring Visual Informatio
论文标题： Exploring Visual Information Flows in Infographics ...
[总结] Exploring Visual Informatio
论文标题： Exploring Visual Information Flows in Infographics ...
论文阅读笔记 RPT: Learning Point Set R
论文阅读笔记 RPT: Learning Point Set Representation for Siamese...
推荐系统遇上深度学习(三十三)--Neural Attentiv
论文名称：《NAIS: Neural Attentive Item Similarity Model for Re...
文献笔记八十五：拟南芥小RNA数据库
论文 An Online Database for Exploring Over 2,000 Arabidopsi...
simHash 文档指纹去重算法
1.simHash算法过程：参考论文来源《Similarity estimation techniques f...
MySQL修改root密码的多种方法
方法1：用SET PASSWORD命令 mysql -u root mysql> SET PASSWORD FO...