Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning(PDF)
Author:Xun Wang, Xintong Han, Weilin Huang, Dengke Dong, Matthew R. Scott CVPR2019 (Citations:237)
核心思想:
根据本文一作在知乎上的回答,本文的一大亮点是提出了通用对加权框架,基于该框架可以对市面上常见的Loss进行分析,提取出其关于对相似度的加权求和形式,以更加深入的理解不同类型的Loss的本质所在。
问题引入:
深度度量学习的一大分支是基于对(pair-wise)的度量学习,它们的损失函数通过嵌入空间中的对余弦相似度来进行计算表达(比如说对比损失,三元组损失,三元组-中心损失,四元组损失,提升结构损失,N对损失,二项偏差损失,直方图损失,三角损失,基于距离加权余量损失,层次三元组损失等)。该领域中的方法需要将单个的样本进行构建使其形成对、三元组或四元组的形式。在这种情况下,训练样本数量会被冗余对淹没,导致收敛速度减慢,模型退化。因此,在深度度量学习中,提升采样策略的效果至关重要。
解决方案:
1.通用对加权框架(General Pair Weighting Framework, GPW Framework)
在本文中,作者将度量学习中的采样问题定义为一个统一的加权视角,提出了通用对加权框架(General Pair Weighting Framework, GPW Framework)来分析不同的基于对的损失函数。
首先,作者将基于对的损失函数定义为关于相似性矩阵和标签的函数。那么,在时刻关于模型参数的导数可通过如下公式计算得到:
图1 损失函数关于模型参数的导数我们从该导数可推导出其原函数:
图2 上述导数的原函数其中,乘积的第一项(导数项)为常量,并且在基于对的损失函数中,我们可以假设对于正样本对,该常量小于等于0;对于负样本对,该常量大于等于0。我们将损失函数根据正负样本对进行分类讨论,将损失函数划分为两部分:
图3 基于对的加权函数其中,是样本对的相似度,为该样本对的权重。该函数将基于对的损失函数学习转变成了设计对的权值,即我们可以通过改变对的权值大小来控制损失。
搭建完通用对加权框架后,本文对四种常见的损失函数进行了权值分析:
1.对比损失:通过计算对比损失关于相似性矩阵的偏导数可以发现,所有的正样本对和相似性大于阈值的负样本对都被赋予了相同的权值。
图4 对比损失2.三元组损失:对于加上余量后相似性大于正样本对的负样本对,三元组损失会平等地对待这些难例。而对于加上余量后相似性仍小于正样本对的负样本对则会被丢弃。虽然三元组损失的采样策略与对比损失有所不同,但本质上仍然会平等地对待所有的被选择的样本对。
图5 三元组损失3.提升结构损失:提升结构损失关于相似性矩阵的偏导数如图7图8所示,可以看到,正样本对的权重由其相对相似性来决定,通过与具有相同锚点的正样本进行比较来衡量其权重(负样本对则与其他具有相同锚点的负样本进行比较)。
图6 提升结构损失 图7 正样本对权重 图8 负样本对权重4.二项偏差损失:可以看到,二项偏差损失是对比损失的软版本,对于具有更高相似性的负样本对会被赋予更大的权重。
图9 二项偏差损失 图10 正负样本对权重2.多重相似性损失(Multi-Similarity Loss)
本文首先总结了以下三种类型的负样本对相似性:
1.Similarity-S:自相似性(Self-similarity)被定义为锚点与负样本之间的余弦相似性。具有更大的自相似性的负样本对意味着它更具有判别性更难被区分,因此携带有更多的信息和意义。需要被赋予更大的权值。对比损失和二项偏差损失基于该准则。
2.Similarity-P:正相对相似性(Positive relative similarity)被定义为自身的余弦相似度和其它正样本对的差异。三元组损失和直方图损失基于该相似性准则。
3.Similarity-N:负相对相似性(Negative relative similarity)被定义为自身的余弦相似度和其它负样本对的差异。提升结构损失,N对损失和NCA方法基于该策略。
图11 三种类型的负样本对相似性基于上述三种类型的负样本对相似性,作者对目前常见的基于对的深度度量方法涉及到的相似性种类进行了总结:
图12 基于对的度量方法涉及到的相似性种类并在此基础上提出了多类相似性损失(Multi-Similarity Loss, MS Loss),通过执行对加权策略来综合考虑上述三种类型的相似度。该策略由两个步骤组成:(i)根据正相对相似性来筛选富含信息的样本对;(ii)结合自相似性和负相对相似性来进一步对所选的样本对进行加权。
1.样本对挖掘:首先提取最难的正样本对(即具有最低相似度的正样本对)和负样本对(即具有最高相似度的负样本对)。然后将其他正负样本对与这两种最难例进行比较,提取满足下述条件的样本对:
图13 正负样本对的筛选条件(Ps:画了幅二维平面的示意图,红色圈之外的正样本以及黄色圈之内的负样本是需要进行提取的)
图14 二维平面示意图2.样本对加权:通过上述挖掘过程,可以粗略地筛选得到富含信息的样本对,丢弃掉对模型训练无影响的低信息量样本对。接下来,通过软加权策略,结合自相似性和负相对相似性对所选的样本对进行进一步的加权。正负样本对的权重可通过如下公式计算得到:
图15 正负样本对权重其中,自相似性由项计算得到,负相对相似性由项确定。
最后,根据上述权重可以推导出其原函数即多类相似性损失,其关于相似性矩阵的偏导数即为上述正负样本对权重。
图16 MS Loss
网友评论