人脸聚类由于其在实践中的广泛应用而成为一项重要任务。基于图的人脸聚类方法最近取得了长足的进步,并取得了最新的技术成果。学习区分节点特征是进一步提高基于图形的面部聚类性能的关键。为此,大多数以前的方法都将重点放在新的亏损功能上,例如基于保证金的亏损或中心亏损。在本文中,我们提出子空间学习作为学习判别节点特征的新方法,该方法是通过新的正交子空间分解(OSD)模块实现的。在基于图的人脸聚类中,OSD导致了更具区分性的节点特征,可以更好地反映每对人脸之间的关系,从而提高了人脸聚类的准确性。大量的实验表明,OSD可以以合理的幅度胜过最新的结果。
人脸聚类已经被研究了好几年,因为它具有广泛的应用,例如在线相册(Zhu等人,2011),自动数据标记或数据集构建的清理(Nech&Kemelmacher-Shlizerman,2017; Guo等人。 (2016年; Zhan等人,2018年),以及人脸图像或视频管理Klontz&Jain(2013年)。已经提出了几种传统的人脸聚类算法并将其应用于提取的人为手工制作的或深层的人脸特征(Lloyd,1982; Shi&Malik,2000; Ester等,1996; Zhao等,2006; You等。 ,2016)。但是,这些算法通常依赖于不同的数据分布假设,这限制了它们的适用性。因此,近年来提出了一些基于图的聚类方法(Wang et al。,2019; Yang et al。,2019; 2020; Zhang et al。,2020),这些方法没有对数据分布进行任何假设。这些基于图的方法在面部聚类基准上获得了最新的最新结果。
学习判别性节点表示形式可以是进一步提高基于图的聚类方法性能的一种方式。先前的大多数方法都提出了新的损失函数来学习判别特征,例如中心损失(Wen等人,2016)和AM-Softmax损失(Wang等人,2018b; a)。但是,这些损失函数在训练期间直接用于神经网络,而无需考虑过滤噪声或学习特征的冗余信息。但是从特征中去除噪声或冗余信息是获得更具歧视性表示的好策略(Lin等人,2016; Chinta&Murty,2012; Shang等人,2019; Sun等人,2019),并且此过程称为功能选择。因此,我们提出了一种从特征选择的角度学习判别特征的新方法。子空间学习是特征选择的经典方法,可以有效消除冗余和噪声。但是,以前用于特征选择的子空间学习方法(Wang等,2015a; Shang等,2020; Wang等,2015b; Shang等,2019)不能与神经网络或图卷积网络结合使用。 (GCN)和端到端训练,因为这些方法无法通过基于梯度的算法进行优化。因此,我们提出了一个正交子空间分解(OSD)模块,该模块可以与神经网络和GCN结合使用以进行特征选择和学习判别性节点特征。
考虑到基于图的人脸聚类方法的优势,我们选择将OSD利用到Wang等人提出的实例枢轴子图(IPS)中。 (2019)。围绕每个实例(数据透视)构建IPS,以描述本地上下文,每个节点都模拟一个数据透视邻居。对于每个枢轴-邻居对,如果邻居节点和枢轴节点具有相同的标识,则应将它们链接在一起。因此,人脸聚类任务也可以看作是人脸局部图上的预测问题,其中表示相同身份的人脸链接在一起。在本文中,“正”节点是指应链接到枢轴的邻居节点,而“负”节点是指不应链接的邻居节点。
图1中的一个简单示例解释了OSD背后的主要思想:灰色和黄色点表示IPS中的输入节点特征,其基本事实分别为正和负,并且它们位于输入空间中。链接预测(LP)用于将输入节点特征转换为12归一化节点特征并将其分类为两类。 OSD的目的是学习可以分解为两个正交子空间的新空间,并使12归一化的节点特征(即绿点和红点)分别位于两个子空间中。在“两个正交子空间”中,以一个子空间为基础的任何基本矢量都与以另一子空间为基础的任何基本矢量正交,并且同时,以每个子空间为基础的基本矢量都彼此正交。其他。例如,我们假设新近学习的空间是欧几里得空间R3,其中每个点都可以用(x,y,z)表示。直观地,欧几里得空间R3可以分解成两个正交的子空间,即(x,y,0)和(0,0,z)。从OSD学习到的标准化的正负节点特征分别位于这两个正交子空间中。通过这样做,OSD实现了功能选择过程。由于要求OSD将学习到的12归一化节点特征的某些维度归零,因此必须选择冗余或噪声以进行过滤,结果只能保留重要和有用的信息。当OSD执行特征选择时,由于损失函数(例如,具有softmax的交叉熵损失)仅在重要的维度上执行,因此新学习的l2归一化特征将更易于分类或紧密聚类。表示形式。此外,OSD中的正交性还引入了固定余量,以更好地区分两种类型的节点,尤其是对于某些硬样本。如图1所示,学习到的12归一化节点特征使一对节点的欧几里得距离落入范围[0,2],对于位于两个子空间上的两个节点,它们之间的距离应为,理论上约为2。
本文的主要贡献概述如下:
• 我们提出正交子空间合成(OSD),据我们所知,它是将子空间学习和特征选择与神经网络相结合的第一种方法。
• 我们从理论上证明,与某些正则化项结合使用时,矩阵加法可以很好地近似于直接和。因此,我们提出了一种新的损失函数,称为空间重建(SR)损失,该函数使OSD与图卷积网络(GCN)结合并以端到端的方式进行训练。
• OSD不仅胜过设计用于学习区分特征的经典损失函数,例如中心损失(Wen等人,2016)和AM-Softmax损失(Wang等人,2018b; a),而且还超过了IJB-512,IJB-1024,IJB-1845(Whitelam等人,2017)和VoxCeleb2(Chung等人,2018)的最新结果。
2相关工作
人脸聚类。在过去的几年中,提出了不同类型的传统集群技术。由于它们对数据分布的严格假设,例如K均值(Lloyd,1982)和频谱聚类(Shi&Malik,2000),其中一些并不十分适合于面部嵌入。几种新的聚类方法试图克服它们的缺点。朱等。 (2011年)设计了一种新的亲和度度量标准,称为秩序距离,它对噪声和离群值更健壮。 Lin等。 (2017)提出了一种近似感知层次聚类(PAHC)方法,该方法采用线性SVM对本地正负实例进行分类。还提出了一些凝聚层次聚类(AHC)算法(例如(Zhu等人,2011; Lin等人,2017; 2018)),以解决复杂数据分布的聚类问题。詹等。 (2018)训练了一个多层感知器(MLP)分类器,以聚集信息并发现健壮的链接,然后找到连接的组件以获取最终的集群。为了学习低维嵌入和聚类分配,提出了编码器-解码器架构(例如(Dizaji等人,2017; Xie等人,2016; Yang等人,2017))。杨等。 (2016年)设计了一种循环范式,以联合更新聚类和要素表示。 Shi等。 (2017)提出了一种ConPac算法,该算法通过使用循环置信度传播进行优化,以最大化邻接矩阵的后验概率。最近,Yang等。 (2019)提出了一种基于检测-分割范式的自顶向下方法,适用于结构复杂的集群。 Wang等。 (2019)建立了IPS,并将GCN应用于预测枢轴面嵌入与其kNN邻居之间的链接。杨等。 (2020)提出了一个由两个部分组成的新的聚类框架。一个组件是估计顶点的置信度,而另一组件是估计边缘连接性。张等。 (2020年)提出了一个由全球和本地GCN组成的两阶段GCN框架。前者对所有节点进行全局分类,而后者则对本地的低置信度节点进行分类。
用于特征选择的子空间学习。有许多与子空间学习相关的作品,在这里,我们仅关注近年来为特征选择而设计的作品。 Wang等。 (2015a)提出了一种基于矩阵分解的无监督特征选择子空间学习方法,该方法将子空间学习视为矩阵分解问题,并利用学习的特征选择矩阵选择重要特征。 Wang等。 (2015b)提出了一种无监督方法,通过最小化投影误差和冗余来获得用于特征选择的指标矩阵。周等。 (2016年)提出了一种全局和局部结构保留稀疏子空间学习(GLoSS)算法,该算法将几何结构信息保留在数据中。蔡等。 (2010)通过将稀疏子空间学习与特征选择相结合,设计了一种多集群特征选择(MCFS)方法。 MCFS引入了频谱分析技术,并测量了不同特征之间的相关性以进行特征选择,从而使选定的特征可以最好地保留数据的簇结构。 Gu等。 (2011年)通过使用L2,1-范数来增强变换矩阵的行稀疏性,进一步改进了MCFS方法。 Shang等。 (2019)提出了一种用于特征选择的局部判别稀疏子空间学习方法,旨在利用原始特征中包含的局部判别和几何信息进行特征选择,因为此类信息对于区分数据样本很重要。 Shang等。 (2020)提出了一种新的算法,称为子空间学习算法,用于通过自适应结构学习和秩近似(SLASR)进行无监督特征选择,该算法自适应地学习流形结构,以使保留的局部几何结构更准确,对噪声更鲁棒。
3方法
OSD模块的预备信息。 OSD模块中的子空间分解由直接和实现(Kreyszig,1978)。形式上,向量空间Z是Z的两个子空间X和Y的直接和,表示为Z = X⊕Y,如果每个z∈Z具有唯一的表示z = x + y,其中x∈X和y∈Y。我们称Y为XinZ的代数补码,反之亦然。直接和将两个子空间的基础结合起来,形成一个新的整个空间。在我们的方法中,我们假设OSD学习的l2标准化节点特征的空间是整个空间。我们的目标是学习两个子空间,这两个子空间的直接和是整个空间。这样,我们还可以将两个子空间视为从整个空间分解而来。然而,直接和不能以端到端的方式用神经网络实现和训练,这给学习两个子空间带来了困难。因此,我们提供以下定理(在附录A中有证明),揭示了直接和与子空间矩阵加法之间的关系。 (为简单起见,在本文中,我们将子空间的基本向量逐行组织为矩阵)。
定理1.给定V的两个子空间V1和V2。如果V = V1 + V2,则V1∩V2= {⃗0}等于V是V1和V2的直接和。
上面的结果为我们的子空间分解提供了基础,因为我们可以简单地对两个子空间矩阵执行加法运算,通过引入正则化项来满足该定理中的条件,从而近似它们的直接和,即,使两个定理相交学习的子空间仅包含⃗0。实际上,如何设计正则化项来满足此条件是一个悬而未决的问题。在这里,我们使一个子空间的基础与另一子空间的基础正交,因为来自两个子空间的任何两个向量的内积为零。通过添加将两个子空间矩阵的乘积强制为零矩阵的正则项可以轻松实现此正交性。通过此正则项和矩阵加法,我们可以了解两个分解子空间的基础,并获得整个空间的基础。
当学习到的l2标准化节点特征在整个空间中表示时,它们中的每一个都可以唯一地分解为两个子空间中的两个特征向量,这直接由直接和的唯一性表示属性决定:直接和,如果V是V1和V2的直接和,则可以通过v = v1 + v2将任何v∈V唯一分解为v1∈V1和v2∈V2。因此,特征到每个子空间的分解是唯一的,并且投影的特征彼此不相交。对于l2-归一化的节点特征,在将其分解为位于这两个子空间中的两个特征向量方面,有很多选择。考虑到OSD旨在实现特征选择(这是将维数归零的过程),我们可以设计一些正则化项,以使每个子空间基础上的基本向量彼此线性独立,并使正L2表示负子空间中的标准化节点特征为node0,反之亦然。这样,OSD会强制过滤掉12维标准化的正负节点特征的某些维度,因此,它应该选择重要信息以保留并归零无用或多余的信息。例如,子空间中的十二个标准化节点特征的表示可以视为特征与子空间矩阵的乘积,它是基于特征向量的子空间基础的线性组合。由于子空间的线性独立特性,每个子空间的基础仅包含零基向量和一组非零基向量。如果负节点特征所在的子空间中的归一化正节点特征的表示为⃗0,则对应于非零基本向量的归一化正节点特征的维数应等于零。1另外,如上所述,当两种类型的l2标准化节点特征仅位于其自己的子空间类型中时,正交性在这两种类型的l2标准化节点特征之间引入了固定的余量,从而导致对它们的区分性更高。
LP模块。 LP模块,表示为LP(GCN-M),是通过按照Wang等人的GCN-M堆叠四个图卷积层(GCL)构造的GCN。 (2019),将GCL与均值聚合器结合使用。详细地,第一个GCL在输入节点上执行特征X∈RN×din,而其他GCL从上一层接收已转换的特征。将最后一个图卷积层的输出节点特征进行12归一化,并形成一个矩阵Y∈RN×dout,将其馈送到分类(softmax)层进行链接预测。这里,N是节点数,而din和dout分别是输入和输出节点特征的维数。
OSD模块。 OSD模块(参见图2)旨在学习两个分解的正交子空间,这些子空间由两个可学习的矩阵(表示为S1,S2∈Rdout×dout)实现。因此,OSD在培训期间仅向整个框架引入了极少的额外计算开销。我们将子空间S1和S2的每一行视为其基础的基本向量。
通过直接和的定义,学习的l2标准化节点特征所在的原始整个空间Sori可以看作是两个子空间S1和S2的直接和:
Sori = S1⊕S2。 (1)
要学习分解后的子空间,问题在于优化:
Lrecon = E [(YS1⊕YS2-Y)2],(2)
其中E [·]取输入矩阵或一批输入矩阵的期望值或总平均值。这里,Y∈RN×dout是原始整个空间的表示,YS1∈RN×dout和YS2∈RN×dout分别是子空间S1和S2中的Y表示.2
为了实现直接和,我们尝试将子空间矩阵加法近似为直接和,因为加法运算使梯度能够从顶部向底部反向传播。因此,基于定理1,我们提出以下正则化项并将其与加法运算相结合以实现直接和:
Lorth = E [(S1S2T)2] + E [(S1S1T)2] + E [(S2S2T)2]。 (3)
最小化等式的第一项。 (3)鼓励两个子空间彼此正交,并且这种正交性确保两个子空间的交集只能包含零向量,这满足定理1。将等式的第二项和第三项最小化。 (3)惩罚S1S1T和S2S2T的对角线元素和非对角线元素。惩罚非对角线元素可确保每个子空间的基本向量彼此线性独立。惩罚对角元素会鼓励OSD学习低阶子空间矩阵,并且这样做,两个子空间中不会有太多非零基向量,从而避免了从Y中滤除过多信息。
而且,正如我们上面所讨论的,通过引入以下正则化项,使另一个子空间上的学习节点特征的表示为⃗0:
Lproj-norm = || Y(+)S2 || 2 + || Y(-)S1 || 2。 (4)
在这里,在不失一般性的情况下,我们分别使用Y(+)和Y(-)分别表示正和负的l2标准化节点特征,并且还假设S1和S2是正和负节点特征的子空间, 分别。最小化(4)引导网络学习仅分布在自己子空间中的特征,从而实现特征选择。最后,根据第二节中的简单示例。在图1中,平凡的解I(即单位矩阵)是原始空间Sori的一个好的解,但不是最好的。我限制了两个分解的子空间的搜索空间,因为它们的非对角元素的和应该为零。因此,我们建议对对角元素进行惩罚,以通过设计避免琐碎的解决方案:
Ldiag = || Diag(Sori)|| 2,(5)
其中Diag(·)取输入矩阵的对角元素。因此,在实际的实现中,我们可以通过将上述正则化项组合在一起,直接将两个子空间相加,以近似得出它们的直接和,从而导致空间重构(SR)损失:
LSR = Lrecon + Lorth + Lproj-norm + Ldiag。 (6)
最后,整个框架的总损失为:
Ltotal =熵+ LSR。 (7)
在此,LEntropy指的是带有softmax的交叉熵损失,用于对正负12个标准化节点特征进行分类。
在测试阶段,不再需要两个子空间矩阵,而仅使用LP(GCN-M),因此推理不会增加任何计算负担。我们遵循Wang等。 (2019)通过遍历所有实例来构造IPS。 LP(GCN-M)预测所涉及实例与其相关的枢轴节点之间链接的可能性。循环之后,我们相应地采用了Zhan等人的伪标签传播策略。 (2018)合并链接并形成集群。
优化。共同训练了OSD模块和LP(GCN-M),并在算法1中总结了整个优化过程。从现在开始,我们使用“ OSD-LP(GCN-M)”表示由LP组成的整个框架。 (GCN-M)和OSD模块。
4.实验
数据集。我们对以下数据集进行了广泛的实验。对于人脸聚类,我们使用CASIA-Webface(Yi等人,2014)作为我们的训练集,该训练集包含10,575个身份和约494,414张人脸图像。 FaceScrub(Ng和Winkler,2014)是名人脸部数据集,总共包含106,863张脸部图像。我们随机选择了517个身份,并删除了重复项,以构建包含33607个面部图像的子集。我们将此子集用作验证集。具有聚类协议的IJB-B(Whitelam et al。,2017)被应用于我们的测试集。该协议有7个子任务,我们选择了三个最大的子任务。特别是,这三个子任务分别包含来自512、1,024和1,845个身份的18,171、36,575和68,195个面部图像,分别表示为IJB-B-512,IJB-B-1024和IJB-B-1845。对于多视图测试,我们使用了VoxCeleb2(Chung等人,2018),该视频具有145K的视频,包含5,994个不同的身份。我们遵循(Wang等人,2019)中的多视图测试的实验设置进行公平比较,即通过选择512和2048身份构造两个测试集。其他数据用于训练集。实施细节在附录A中给出。
消融研究。现在,我们报告关于FaceScrub的消融研究(Ng和Winkler,2014),以便全面了解OSD模块的工作原理。
首先,我们探讨了IPS的超参数如何影响OSD-LP(GCN-M)的性能,其中包括枢轴的最近邻居(k1),每个1跳节点的最近邻居(k2)以及链接的最近的邻居,用于拾取边缘(u)。这些超参数的具体含义和功能可以在(Wang等人,2019)中找到。不需要使用与培训阶段相同的IPS配置。因此,我们首先设置k1 = 40,仅研究不同的u和k2,我们的结果记录在表1中。我们得出结论,对于任何固定的u,增加k2总是会导致性能提高,直到k2等于u。一旦k2大于u,就可以观察到F度量的明显下降。相反,在固定k2的情况下,较大的u会导致大多数情况下的BCubed F测度较低。当k2 = u = 5时,可获得最高的BCubed F测度。然后,使用此设置,我们测试了不同k1带来的效果。根据图3中的结果,我们发现当k1 = 70时,F度量和NMI达到峰值。因此,从现在开始,我们将k1 = 70,k2 = 5和u = 5固定为所有以下实验。
其次,我们将OSD模块与另外两个损失函数进行了比较,这两个函数广泛用于学习判别功能以及SR损失。详细地,在表2的第一部分中,我们报告了LP(GCN-M)结合中心损失(Wen等,2016)和AM-softmax损失(Wang等,2018b; a)的结果。尽管中心损失和AM-softmax损失可以改善基线(即LP(GCN-M))的性能,但是OSD对LP(GCN-M)的改善要高于两个损失函数中的任何一个(最后表2)中的行,表明OSD在帮助学习区分性表示形式方面的优势。表2的第二部分显示了SR损失中不同子项组合的结果,以探讨SR损失对OSD模块的影响:一旦我们删除了SR损失的任何子项,就可以观察到F的下降。测量和NMI,证实了理论的正确性和SR损失的重要性。
第三,为了更好地解释OSD学到了什么,我们将OSD学到的节点特征可视化。我们从训练集中随机抽取了1000个由正向或负向节点组成的枢轴节点,并使用t-SNE(Maaten&Hinton,2008)进行降维并可视化图4中的节点特征。图4,左),正负节点的表示没有足够的区别;负节点特征的分布是分散的,甚至某些正负节点特征是混合的。此类学习到的功能可能会对基于图的面部聚类的性能产生不良影响。使用OSD-LP(GCN-M)(右图4),尽管我们没有专门设计惩罚或损失函数来最大化两种类型节点之间的余量,但是学习到的节点特征之间仍然存在明显的差距。
与最新方法的比较。现在,我们将我们的方法与以前的方法进行比较。表3的第一部分显示了IJB-B数据集上的一些传统聚类方法。由于对功能的假设有限(AHC除外),因此大多数这些方法的性能总是比我们的方法差,并且有很大的余量。至于AHC,它在传统方法中表现最佳,在测试集上达到了约79.5%F值和0.920 NMI。但是,OSD-LP(GCN-M)仍然以较大的幅度优于AHC。
在表3的第二部分中,我们列出了近年来提出的最新方法。很明显,就F度量和NMI分数而言,我们的方法在三个子任务上都超过了现有技术。请注意,在LP(GCN-M)上附加使用了OSD,因此OSD-LP(GCN-M)优于GCN-M的事实(Wang等,2019)直接证明了该方法的可用性。
此外,我们关注了Wang等人。 (2019)并在使用Softmax损失训练的ResNet-50(He et al。,2016)模型的面部嵌入上测试了OSD模块。结果显示在表4中,我们可以得出结论,基于不同的面部嵌入,OSD-LP(GCN-M)仍然可以胜过以前的方法,从而验证了OSD模块的多功能性。
多视图测试。为了进一步验证OSD模块的通用性,我们遵循Wang等人的方法。 (2019),还评估了我们基于多视图数据的模型。我们利用面部嵌入和音频嵌入来评估视频面部数据聚类上的OSD。根据表5和表6中的结果,尽管人脸嵌入的数据分布与音频嵌入的分布有很大不同,但是OSD可以同时改善两者的性能,这意味着OSD是通用模块,并且可以工作用于不同的数据形式时效果很好。此外,OSD还通过多视图数据的组合获得了最新的技术成果。
5总结与展望
在这项工作中,我们提出了正交子空间分解(OSD),它实现了一种新的方法来帮助网络通过子空间学习和特征选择来学习判别性特征。我们还报告了广泛的实验,这些实验验证了所提出方法的有效性。而且,据我们所知,这是将子空间学习和特征选择与神经网络同时结合的第一项工作。最后,这项工作提供了一个新的研究方向,即如何利用特征选择和子空间学习来鼓励神经网络学习更多的判别表示。
附录
A.1定理证明1
证明。给定V的两个子空间V1和V2。
充分性:假设V = V1 + V2且V1∩V2 = {⃗0}。我们将子空间视为一组向量。至于两个集合的加法,V1 + V2 = {v1 + v2:v1∈V1,v2∈V2},这意味着V中的任何向量都是V1的向量和V2的向量的和。应该证明这个加法的唯一性。Asforavectorv∈V,weassumev1∈V1,v2∈V2,v = v1 + v2,v3∈V1,v4∈V2,v = v3 + v4。由于V1∩V2= {⃗0},因此v1 + v2 = v3 + v4→v1-v3 = v4-v2。由于v1-v3∈V1和v4-v2∈V2,v1-v3 = v4-v2 =⃗0。因此,v1 = v3和v4 = v2。
必要性:假设V是V1和V2的直接和。根据定义,V = V1 + V2成立。如果v∈V1∩V2,考虑⃗0∈V,则通过直接和的定义得到v +(-v)=⃗0,其中v∈V1和-v∈V2。如果visnota⃗0,则⃗0可以由⃗0+⃗0和v +(-v)表示,这不是唯一表示,并且违反了直接和的定义。因此,V1∩V2 = {⃗0}。
A.2实施细节
最初,通过使用ArcFace模型(Deng等人)获得了CASIA-Webface(Yi等人,2014),FaceScrub(Ng&Winkler,2014)和IJB-B(Whitelam等人,2017)中人脸的嵌入。等(2019年)使用ResNet-101。该模型在MS-Celeb-1M(Guo等人,2016)和VGGFace2(Cao等人,2018)的联合上进行了训练。然后,我们使用(Wang等人,2019)中的方法构造实例枢轴子图(IPS)作为整个框架的输入,然后通过设置k1 = 80,k2 = 8和u =来遵循它们的训练设置。 8. LP(GCN-M)与(Wang等人,2019)中GCN-M构造的链路预测模型相同。特别地,前三个图卷积层的输出特征的维数均为512,而最后一个是256。关于OSD,两个学习的子空间矩阵的维数均为256×256。整个框架通过具有0.9动量和0.0005权重衰减的随机梯度下降(SGD)进行优化。我们将批次大小设置为16,并对该模型进行了3个时期的训练。首先将学习率设置为10-3,然后在每个时期乘以0.1。最后保存的模型用于评估,我们使用的评估指标与(Wang等人,2019)中相同,即归一化互信息(NMI)和BCubed F测度(Amigó等人)。 (2009年)。对于多视图测试,我们使用上述相同的训练过程,简单地将面部嵌入与匹配的音频嵌入连接起来,并构造IPS进行“面部+音频”实验。
网友评论