摘要。 Dropout已被广泛采用,它通过将节点特征向量的条目随机置零来对图卷积网络(GCN)进行正则化,并在各种任务上获得了有希望的性能。但是,通过将(1)在不同节点特征向量的条目之间进行空间传播,以及(2)在每个节点特征向量的不同条目之间进行深度传播,单个归零条目的信息仍可能会出现在其他相关条目中,这实质上削弱了辍学的有效性。这主要是因为在GCN中,对线性变换后的相邻节点特征向量进行聚合以在后续层中生成新的节点特征向量。为了有效地规范化GCN,我们设计了DropCluster,它首先将一些种子条目随机置零,然后将在空间或深度上与这些种子条目相关的条目置零。这样,种子条目的信息被彻底删除,并且无法通过相关条目流到后续的层。我们通过将其与Dropout及其代表性变体(例如SpatialDropout,Gaussian Dropout和DropEdge)在基于骨骼的动作识别上进行全面比较,来验证所提出的DropCluster的有效性。
1引言
GCN在各种任务(包括节点分类[14、27],图生成[33、35],基于骨骼的动作识别[32、22],跟踪[8、31])上均获得了最新的成果等等。 GCN设计用于从图结构化数据中提取特征[14],其通用工作机制是迭代地对每个节点特征向量进行线性变换,并在相邻节点特征向量上进行聚合,作为后续层中的节点特征。尽管取得了成功,但对GCN的正则化还没有进行足够的研究,只是最近才开始受到关注[20]。
Dropout [11]是目前在GCN中使用最广泛的正则化方法。但是,由于辍学并不是最初为GCN设计的,因此它缺乏对GCN中信息流的深入研究,因此其性能在实践中可能受到限制。具体地说,通过对给定特征图中的条目进行随机置零以删除部分信息,丢弃操作可以使网络规范化。但是在GCN中,随着对每个节点特征向量的线性变换和对相邻节点特征向量的局部聚集的迭代应用,该信息既在深度上在每个节点特征向量的不同条目之间传播,又在空间上在不同节点特征向量之间传播。因此,通过丢弃而单独归零的条目的信息仍然可以存在于其他相关条目中。尽管提出了不同的辍学变体以提高正则化效果,但他们大多未能考虑GCN中的特征相关性。在其他方面进行了改进,例如使用自适应丢包率[2],泛化了从伯努利到高斯的随机噪声分布[23],随机删除图形边缘以对GCN进行正则化[20]等。唯一考虑特征相关性的方法是针对CNN的几种改进的辍学技术,但是由于数据结构的巨大差异,这些基于欧几里得数据的方法无法处理图形数据。例如,DropBlock [9]考虑了CNN特征图中的空间相关性,并建议删除连续条目的块以更有效地去除信息。但是,其定义的“块”不能直接应用于图形数据。最重要的是,没有现有的方法可以通过考虑特征相关性来有效地规范化GCN。
在本文中,我们建议DropCluster通过考虑特征相关性来更好地规范化GCN。我们首先从给定的节点特征向量中随机采样种子条目,然后同时删除种子条目以及其他具有空间或深度相关性的条目。当节点的信息在第GCN层之后传播到其L跳邻居时,我们将节点的L跳附近的节点视为空间相关。不同特征通道之间的深度相关性通过线性相关系数来衡量。通过同时删除在空间和深度方面相关的条目,可以更有效地消除掉dropout的信息,并使网络更规范化。同样,当我们选择将条目拖放到种子条目的l跳附近时,所选条目会在种子条目周围形成簇,这就是我们的方法被称为DropCluster的原因(图1)。为了证明DropCluster的有效性,我们在实验中将其与Dropout和其他代表性变体进行了全面比较。此外,我们的方法被实现到不同的GCN中以证明其泛化能力。此外,我们还将其实施到深度更广的网络中,以进一步展示其在规范深层GCN方面的有效性。实验是在Northwestern-UCLA和NTU-RGB + D数据集上基于骨骼的动作识别任务上进行的。
2相关工作
GCN GCN设计用于从图形数据中提取特征。 GCN的两个主要流包括基于频谱的GCN和基于空间的GCN。基于频谱的GCN [3、6、14、16]将卷积滤波器应用于具有良好理论基础的频谱图,但是基于空间的GCN由于效率,灵活性和泛化性问题而更为可取。因此,我们在工作中仅关注空间GCN。在[17]中提出了第一个空间GCN,主要操作是聚合每个节点的邻近信息以获得逐渐精化的节点表示。后来,各种变体开始出现[1,27,18,10]。这些变体主要集中在两个方面,即,选择在卷积中包括哪些节点以及如何聚合所选节点。原始GCN [14]为卷积选择了1跳邻居,并且每个卷积的接收场都限于1跳邻居。 [25]利用邻接矩阵函数的多项式作为卷积核,从而通过高阶多项式捕获了多跳邻域。除了选择远处的节点以扩大接收范围外,[37,10,4]对邻近的节点应用了不同的采样策略以减少计算负担。设计聚合的工作主要集中在确定聚合权重的不同方法上。 [27]提出通过将节点特征输入到前馈网络来计算两个节点之间的权重。 [24]设计了一种图形一致性模型来预测每个边缘正确连接两个节点的概率,这有助于更正确地聚集节点。
Dropout和Variants在[11]中提出了Dropout,可通过将特征图中的条目随机归零来规范化完全连接的网络。后来,出现了不同的变体,包括通过将伯努利分布扩展到高斯而产生的高斯辍学[23],通过随机删除边来规范化GCN的DropEdge [20],等等[2,34,12, 13,28]。然而,尽管这些方法成功地改善了辍学率,但它们并未考虑特征相关性,因此它们在GCN中的有效性受到限制,这在我们的实验中得到了证明。除了随机丢弃信息的技术外,还有考虑空间特征相关性的变体,这些变体专门用于规范CNN。 [26]提出了SpatialDropout来删除特征图的整个通道,以便将删除的通道中与空间相关的条目一起删除。 [7]提出了Cutout来随机掩盖输入的正方形区域。受Cutout的启发,[9]提出了DropBlock来删除特征图的连续区域并获得了显着改进。其中,SpatialDropout [26]可应用于GCN,并在我们的实验中显示。尽管其他两个不能应用于图形数据,因为不能在图形上直接定义欧几里得数据上的“块”。此外,在这些方法中未考虑深度相关。在这项工作中,我们通过考虑特征相关性提出了更好的正则化方法。与上述方法不同,我们不仅考虑空间相关性,而且考虑通道之间的深度相关性。而且,我们的方法是针对图结构数据上的GCN定制的。
3 DropCluster
我们提出的DropCluster旨在通过在删除条目时考虑空间和深度相关性来更好地规范GCN。在本节中,我们首先介绍初步知识,然后从两个方面描述我们的模型,包括解决空间和深度方面的相关性。最后,我们讨论一些相关的方法。
3.1初步
我们给出了有向图的一般表述,对无方向图的泛化很简单,每个无向边都视为两个有向边。每个图表示为G =(V,E),其中V = {vi | i = 1 ... N}由所有N个节点组成,E = {eij}由所有边组成。每个节点vi都有一个特征向量xi∈Rd,具有d个通道(d的深度),特征图X∈RN×d是所有特征向量的串联。每个边缘eij表示从vi指向vj的有向边缘。边缘也由邻接矩阵A∈RN×N表示,其中Aij∈{0,1}表示边缘eij是否存在。此外,我们将附加自连接的邻接矩阵表示为A ̃ = A + IN,其中IN∈RN×N是恒等矩阵。
我们将节点特征向量的通道表示为条目。 xi中的第j个通道则表示为条目xji。给定G具有N个节点和d维特征向量,其特征图X∈RN×d具有N·d个条目。在下文中,深度相关表示特征向量的不同通道之间的相关。节点vi的相邻节点定义为NG = {vk | eik∈E}。 vi的l跳邻居由与vi距离为l的节点组成,并表示为NGl(vi)。条目xji的相邻条目是vi的相邻节点在相同通道中的条目,即Ne(xji)= {xjk | vk∈NG(vi)}。并且,将l跳相邻条目类似地定义为Nel(xji)= {xjk | vk∈NGl(vi)}。
DropCluster通过将输入特征图乘以逐个元素的掩码M来规范化网络。带有下降掩码M的图形卷积运算可以表示为:
X(l + 1)=σ(D ̃-2A ̃D ̃-2(M⊙X(l))W(l))。 (1)
在此,X(l)是来自第l个图卷积层的输出特征图。 D ̃∈RN×N是一个对角矩阵,表示每个节点的Dii =jA ̃ij的程度。项W(l)是可训练矩阵,可对第l层的节点特征进行线性变换。 σ是激活函数。
要生成放置掩码M,DropCluster的第一步是选择随机种子条目。具体来说,我们从由pseed参数化的Bernoulli分布(即Mij〜Bernoulli(pseed))绘制矩阵Mseed∈RN×d,其中将在第二节中解释该pseed。 3.4。然后,我们将找到在空间或深度上与种子项相关的其他项,以同时删除它们。
3.2空间相关
空间相关性来自图卷积。在第l个卷积层之后,每个节点的信息都会传播到其l跳邻居,因此,丢弃单个条目不会阻止信息流向后续层。因此,在第l层之后,我们建议将种子项以及它们在l跳附近的条目一起删除。这些条目形成以种子条目为中心的簇,其半径为l,这就是我们的方法称为DropCluster的原因。初始掩码Mseed用1表示种子项,其他掩码用0表示,我们将Mseed更新为掩码Ms,以使种子项及其在l跳内的邻居都用1表示。将种子项的1个跳到其1跳邻居,将Mseed与A ̃l相乘,将值传播到1跳邻域内的所有条目。因此,我们将Ms构造为:
其中,Heaviside阶跃函数H(·)对于正输入返回1,反之则返回0,并用于对获得的蒙版进行二值化。
3.3深度相关
在GCN中,节点特征向量的线性变换(式1中的W(l))始终遵循卷积运算。因此,在不同频道的条目之间也存在深度相关。在这一部分中,我们介绍如何删除与深度相关的条目。我们采用线性相关系数作为深度相关的度量。给定具有d个通道的输入特征图X∈RN×d,第i列Xi∈RN对应于特征图的第i个通道。我们首先生成一个相关矩阵Mcorr∈Rd×d 1来存储每对通道之间的相关系数:
Mcorr存储的相关系数在0到1的范围内。对于以下用法,如果两个通道之间的相关系数的绝对值超过阈值tc,我们将两个通道视为相关。形式上,我们导出另一个二进制矩阵Mc:
Mc = H(| Mcorr | -tc)。 (7)
掩码Ms存储已选择的要删除的条目。使用Mc,我们更新Ms,以进一步包括与已选择的对象深度相关的条目。 Ms(Ms,i)的第i行指示xi的选定通道,Mc(Mcj)的第j列指示与通道j相关的所有通道。因此,如果条目xji与xi的已选择条目在深度上相关,则Ms,i和Mcj之间的内积取正值,否则取零。 Ms和Mc之间的矩阵乘法是该计算的并行化,它将与Ms中已选择的所有深度相关的所有其他条目转换为正数。最重要的是,用二值化更新掩码Ms表示为:
Msc = H(Ms·Mc)。 (8)
Msc表示所有要减1的条目,因此等式3中提到的最终掩码M。 1将是M = 1-Msc。为简化起见,省略了训练的缩放比例,并将其包含在Algo中。 1。
线性相关系数测量通道之间的线性相关强度。具有强线性相关性,两个通道是相互可预测的,即,一个特征的存在以高置信度指示了另一个特征的存在。因此,在一个通道中单独删除条目不能有效地删除语义信息,但是在其他高度相关的通道中同时删除条目可以更完整地删除信息。
3.4种子条目数
当处理空间和深度相关的条目时,我们将种子条目的值传播到相邻的和深度相关的条目。随着相邻和深度相关条目的数量随节点的不同而变化,所选条目的最终数量也会变化。因此,一个挑战是选择合适数量的种子(播种),以使最终的实际滴落率接近我们设定的水平。我们的解决方案如下:给定丢弃率rd,平均边缘数以ne表示,每个通道的相关通道的平均数为nc,第一层中的种子条目数应为:
由于页数限制,需要对等式进行详细计算。补充材料中包括9和10。
3.5讨论
这部分分析了DropCluster和几种相关方法(包括SpatialDropout [26],DropBlock [9]和DropEdge [20])之间的区别。
DropCluster与SpatialDropout的关系由于自然图像中的卷积操作和空间相关性,CNN特征图中的条目也与空间相关,这会影响Dropout的有效性。因此,SpatialDropout [26]建议随机删除整个特征通道,以同时删除空间相关的条目(图2(b))。给定一个特征图F∈Rnfeats×w×h,SpatialDropout采样nfeats二进制值,指示是否丢弃每个通道。不同的是,我们认为l跳相邻条目在空间上与第l层相关。然后,将I跳相邻项与种子项一起删除(图2(a))。此外,考虑深度相关是另一个巨大的差异。代替随机选择通道,我们将条目拖放到与所选条目深度相关的通道中。
DropCluster与DropBlock DropBlock [9]专注于CNN特征图中的空间相关性,并丢弃连续条目的块。给定一个功能图,DropBlock将条目拖放到大小为块大小×块大小的几个随机选择的正方形区域中(图2(b))。由于无法在图形上定义正方形区域,因此DropBlock无法规范化GCN。 DropCluster通过同时删除第l层随机种子条目的l跳邻域内的条目来处理空间相关性。与DropBlock相比,这不仅可以在GCN中使用,而且还更加精致,因为下降区域的大小随层数的增加而增加,这对应于更深层中的接收场的增加。此外,DropCluster还将删除深度相关的条目,这在DropBlock中未考虑。
DropCluster与DropEdge的比较与我们的工作类似,DropEdge [20]也专门用于GCN,但是方法大不相同。我们的目标是通过删除节点特征中包含的部分信息来规范GCN,而DropEdge建议随机删除边缘以稀疏图(图2(a))。给定表示| E |的邻接矩阵A边缘和下降速率为p,下降后的邻接矩阵为Adrop = A-A',其中A'包含| E |·p个随机选取的边缘。在我们的实验中,DropEdge也是基准。
4个实验
在本节中,我们首先测试不同的超参数以研究其影响。然后我们进行消融研究,以验证模型不同部分的有效性。之后,我们将性能与其他最先进的技术进行比较。为了进一步证明我们的方法在深层GCN中的有效性,我们将其应用于深度不断增加的网络,并将其性能与辍学率进行比较[11]。最后,我们将我们的方法实现到不同的网络结构以显示其泛化能力。
4.1数据集
Northwestern-UCLA [29] Multiview 3D事件数据集包含由三个Kinect相机同时捕获的RGB,深度和人体骨骼数据。该数据集包括10个动作类别:用一只手捡拾,用两只手捡拾,丢垃圾,走来走去,坐下,站起来,穿上,落下,扔出,携带。每个动作由10个演员执行。该数据集包含从各种角度获取的数据。按照[15]中的设置,从前两个摄像机获取的样本用于训练,而从第三个摄像机获取的样本用于测试。
NTU-RGB + D [21] NTU-RGB + D包含来自60类的56,880个样本,具有RGB视频,深度图序列,3D骨骼数据和红外视频的形式。每个人体骨骼图都有25个由3D坐标(X,Y,Z)表示的关节。按照[21]的建议,我们按交叉主题(x-sub)和交叉视图(x-view)划分数据集。在x-sub设置中,一组人生成的40,320个样本用作训练集,另一组人中的其他16,560个样本用于测试。在x视角设置中,一组摄像机捕获的37,920个样本用于训练,另一组摄像机捕获的18,960个样本用于测试。
4.2实施细节
在西北加州大学洛杉矶分校,我们采用经过修改的ST-GCN [32]作为主干,并将其表示为ST-GCN-U。 ST-GCN-U具有9层。前3层具有32个通道用于输出,后2层具有64个通道用于输出。第6和第7个具有128个通道用于输出,最后两个层具有256个通道用于输出。 DropCluster在每个卷积层之后实现。优化器为SGD,起始学习率为0.01。该模型训练了100个纪元,然后在20、50和80个纪元将学习率降低了0.1。
在NTU-RGB + D上,我们采用具有9层的原始ST-GCN [32]作为背骨。前3层具有64个通道用于输出,随后3层具有128个通道用于输出,最后3层具有256个通道用于输出。 DropCluster遵循每个卷积层。优化器为SGD,初始学习率为0.1。我们训练模型80个纪元,然后在10和50个纪元后将学习率降低0.1。
在4.6中,第二层网络具有用于第一层的64个输入通道和128个输出通道,而第二层网络具有用于输入的128个通道和用于输出的256个通道。 3层网络具有与2层网络相同的前两层结构,第3层网络具有256个用于输入和输出的通道。通过在3层网络的前两层之间插入用于输入和输出的128个通道的层来构建4层网络。对于6层网络,在4层网络的第1层之前插入两个具有64个通道的相同输入层,用于输入和输出。最后,11层网络基于9层网络。附加的第10层具有256个通道和512个通道用于输入和输出,最后一层具有512个通道的输入和输出。
4.3超参数分析
在这一部分中,我们将DropCluster应用于西北UCLA上的ST-GCN-U,具有不同的丢弃率rd和相关阈值tc。首先,我们固定tc = 0.5并实现不同的下降率,结果如图3所示。图3中的红色曲线显示了不同下降率的DropCluster性能。我们看到DropCluster在较小的速率下可以很好地工作,并且在速率增加时性能会下降。为了进一步研究这种现象,我们同时展示了辍学的表现。 DropCluster和Dropout的行为类似,因为性能首先随下降速率增加,而在达到最佳速率的峰值后性能下降。由于DropCluster和Dropout都通过消除部分信息来规范化网络,因此对于任何丢弃方法,都可以合理地预期与消除的适当信息量相对应的最佳丢弃率。因此,由于DropCluster可以更有效地消除语义信息,因此可以以较低的删除率删除足够的信息。相反,通过将条目随机归零,辍学需要较高的速率来删除足够的信息。因此,我们观察到DropCluster的最佳丢弃率较小,而Dropout的丢弃率较高。此外,即使更高的丢弃率可以删除足够的信息,也可能会损害数据质量,因为特征图中到处都有太多的空洞。总体而言,DropCluster可以通过将一小部分数据归零来消除足够的信息,从而保护其他地方的数据质量。相比之下,丢弃操作需要较高的丢弃率才能实现相同数量的信息删除,但同时也会损害数据质量,即使使用最佳丢弃率,峰值精度也较低。上面,我们将所有实验的掉落率设置为0.1。
然后,我们将tc从0更改为1,如图4所示。根据图4,阈值不会太小或太大都是有希望的,而0.5则近似最佳。相关阈值从深度上确定共丢弃条目的强度。阈值过高会导致一些相关的通道也无法同时丢失,而太小的阈值会导致相关性较弱的通道同时丢失。首先,我们将所有实验的阈值设置为0.5。
4.4消融研究
空间和深度相关是我们方法的主要关注点。在这一部分中,我们实现了两个仅考虑空间或深度相关性的模型来分别研究它们。实验是在西北UCLA上以ST-GCN-U为骨干进行的。
从表1可以看出,无论是在空间上还是在深度上都可以改善性能,但并没有显示出优于辍学的优势。充分考虑两个相关性的完整DropCluster会产生更好的结果,这意味着空间相关性和深度相关性在GCN特征图中均很重要,应同时考虑。
4.5与其他最新方法的比较
除了辍学之外,在这一部分中,我们还将DropCluster与其他各种最新的辍学变体进行全面比较,如下所述。高斯落差[23]通过用高斯噪声代替伯努利噪声来广义落差,并且获得了与落差相同或更好的性能。 SpatialDropout [26]针对卷积特征图中的空间相关性,并在特征图中随机丢弃整个通道。基于注意力的辍学[5]相对于表示语义信息分布的自注意力图,可删除或突出显示最多的语义区域。 Jumpout [30]提出了对辍学的修改,包括单调辍学率,使辍学率适应激活的神经元数量,以及重新调整输出规模以进行批量归一化。这些方法都不是专门针对GCN的。 DropEdge [20]随机删除每一层的边缘,旨在通过稀疏图来减轻过度拟合和过度平滑的问题。我们仔细调整了超参数以充分利用它们,结果在表2和表3中列出。
从表2和表3中可以看出,尽管大多数基准不是专为GCN设计的,但它们显示出令人鼓舞的性能。但是DropCluster的性能仍然明显优于它们。在Northwestern-UCLA上,DropCluster的性能提高了3.7%,而通过SpatialDropout通过比较方法获得的最高改进是2.3%。在NTU-RGB + D上,与模型相比,我们的方法得到了2.3%和0.9%的改进,而没有降低两个协议,第二高的改进是通过高斯辍学获得的1.6%和0.4%。 DropCluster在NTU-RGB + D上的性能低于Northwestern-UCLA,这主要是由于数据集的体积差异所致。 NTU-RGB + D是Northwestern-UCLA的30倍,因此该模型更容易在Northwestern-UCLA上过度拟合,并且将从正则化中受益更多。在所有基线中,SpatialDropout与我们的方法有关,因为它还考虑了条目之间的空间关系。它类似于DropCluster,没有考虑深度相关性,对应于表1中的“空间相关性”。SpatialDropout和“空间相关性”的性能也相似,相差仅0.3%。 SpatialDropout表现稍差的原因可能是它丢弃了特征图的整个通道,从而导致严重的信息丢失。相反,对于每个通道,我们在第l层种子条目的l跳邻域内丢弃节点簇,从而灵活地仅删除部分信息。
4.6在扩展深度的网络上的实现
为了进一步显示DropCluster在深层GCN中的性能,我们将其应用于深度不断增加的网络。我们使用交叉视图协议对NTU-RGB + D数据集进行了实验。结果显示在选项卡中。 4,
根据Tab。在图4中,不下降的模型的性能会随着深度的增加而迅速增加,然后放慢,并在深度6处停止。此外,当深度进一步增加时,性能甚至会降低。这种现象是合理的。在深度从2增加到6的第一阶段,性能会随着更高深度网络的容量而提高。但是,更高的容量也使网络更容易过度适应。从标签。参见图4,我们看到11层网络的参数是9层网络数量的两倍以上,从而导致过拟合的可能性更高。使用dropout可以缓解这种情况,但是当深度从6增加到9时仍然存在下降的趋势。使用DropCluster可以实现惊人的改进。当深度增加到11时,它不仅可以更好地规范较浅的网络,而且性能比丢失率高1.3%。最重要的是,很明显,DropCluster在规范深度网络方面更有效,可以更好地利用其表达潜力。
4.7进一步的实现
在这一部分中,我们将DropCluster实现到更多网络,以进一步证明其泛化能力。具体来说,我们将DropCluster应用于具有两个独立分支模型和完整模型的GECNN,SLHM和GCN-NAS。上面的实验是针对在图节点上应用卷积的GCN。在这一部分中,我们首先将我们的方法应用于GECNN和SLHM [36],这与基于节点的GCN模型不同,因为图的边缘也参与卷积。在GECNN中,卷积中仅包含边缘,而在SLHM中,边缘和节点均参与。尽管卷积计算有所不同,但特征之间的相关性却相似。这样我们的方法可以直接实现,结果在Tab中。 5,
从标签。 5,DropCluster大大改善了两个模型。由于我们直接采用了前面各节中的DropCluster的超参数,因此强烈证明了DropCluster的生成能力。
GCN-NAS [19]是最近的模型,它采用神经结构搜索来设计GCN以进行基于骨骼的动作识别。所获得的模型具有关节流和骨骼流。我们对流和完整模型都实现了DropCluster,结果显示在Tab中。 6。
从标签。从图6可以看出,通过我们提出的DropCluster的正则化,GCN-NAS的性能得到了显着改善。
最重要的是,DropCluster具有强大的泛化能力,并且可以在不进行超参数调整的情况下作为有效的正则化轻松地在不同的GCN中实现。
5结论
在本文中,我们提出了DropCluster,这是一种通过考虑特征之间的空间和深度相关性来规范化GCN的有效方法。我们将其应用于具有不同数据集上不同结构的深层GCN,并与辍学和其他变体进行比较。此外,我们将其应用于深度不断增加的网络,以进一步证明其规范深层GCN的能力。
网友评论