美文网首页
论文阅读(57)Aga: Attribute-guided au

论文阅读(57)Aga: Attribute-guided au

作者: 续袁 | 来源:发表于2019-10-21 16:36 被阅读0次

    1. 论文相关

    CVPR2016

    image.png

    2.摘要

    2.1 摘要

    我们考虑了数据扩充问题,即生成人工样本来扩展给定的训练数据集。具体地说,我们提出了属性引导增强(attributed-guided augmentation,AGA),它学习允许合成数据的映射,使得合成样本的属性处于期望值或强度。这在没有属性注释的小数据可供学习的情况下尤其有趣,但是我们可以访问大量注释样本的大型外部语料库。虽然先前的工作主要是在图像空间中进行增强,但我们建议在特征空间中进行增强。我们将我们的方法实现为以端到端方式学习合成函数的深度编码解码器架构。我们证明了我们的方法在以下问题上的实用性:(1)在迁移学习环境中,我们没有新类的先验知识的单样本目标识别,以及(2)基于对象的单样本场景识别。作为外部数据,我们利用来自SUN RGB-D数据集的3d深度和姿势信息。我们的实验表明,属性引导的高层次CNN特征增强在这两个问题上都显著提高了单样本识别性能。

    2.2 主要贡献

    总的来说,我们的贡献如下:
    (1)提出了一种用特征描述子(feature descriptors)代替图像来扩充训练集的方法。具体地说,我们提倡一种增强技术,在一组对象属性(如深度或姿势)的期望值的指导下,学习合成特征。这一概念的说明如图1所示。
    (2)我们首先训练一个fast RCNN[14]检测器来识别二维图像中的物体。然后训练一个神经网络回归器,该回归器预测被检测对象的3d属性,即从摄像机平面和姿态的深度。然后训练编码器-解码器网络,对于在一定深度和姿态下检测到的对象,该网络将“幻觉”其 RCNN特征的变化,以获得一组所需的深度/姿态。使用这种架构,对于新的图像,我们能够通过对应于对象改变其3D位置的辅助特征集来扩充现有特征描述符。由于我们的框架依赖于对象属性来指导扩展,因此我们将其称为属性引导扩展(attribute guided augmentation,AGA)。


    image.png

    2.3 相关工作

    (1)
    (2)

    3.架构(Architecture)

    3.0.1 符号(Notation)

    为了描述我们的体系结构,我们让X表示我们的特征空间,x∈X\subset R^{D}表示一个特征描述符(例如,一个对象的表示),A表示一组可用于外部训练语料库中的对象的属性。进一步,我们让s∈R_+表示与x关联的属性a∈A的值。我们假设(1)这个属性可以由一个属性回归器\gamma预测:X→R_+(2)它的范围可以被划分为I个区间[l_i,h_i],其中l_i和h_i表示第i个区间的上下界。所需的对象属性值集是\{t_1,…,t_T\}

    3.0.2 目标(Objective)

    在概念层次上,我们的目标是一个综合函数\phi,给定某个对象属性A的期望属性值t,将对象特征x∈X的属性值以受控方式转换为期望目标值t。更正式地说,我们的目标是学习:

    image.png

    由于式(1)中的公式过于泛化,因此我们将问题限制在这样的情况下:对于属性范围A内的间隔[l_i,h_i]K个所需对象属性值t_k的选择,我们学习到不同\phi_i^k。在我们对图1的说明中,例如,我们有一个区间[l,h]=[1,2]和一个目标值为3[m]的属性(深度)。学习独立的综合函数简化了问题,但它需要一个好的先验属性预测器,因为,否则,我们无法决定使用哪个\phi_i^k。在测试过程中,我们(1)根据对象的原始特征x预测其属性值,即\gamma(x)=\hat{t},然后(2)合成附加特征,如\hat{x}=\phi_i^k(x),对于k=1,…,T。在\hat{t} \notin [l_i,h_i]的情况下,不使用\phi_i^k。接下来,我们将详细讨论这种方法的每个组成部分。

    3.1. 属性回归(Attribute regression)

    我们架构的一个重要部分是表示给定的属性A的属性回归器:\gamma:X→R_+。该回归器将特征x作为输入,并预测其强度或值,即\gamma(x)=\hat{t}。虽然原则上\gamma(x)可以通过多种方法实现,例如支持向量回归[10]或高斯过程[3](support vector regression[10] or Gaussian processes [3]),但我们使用两层神经网络来完成这项任务。这不是一个任意的选择,因为它稍后将使我们能够在合成函数(synthesis function(s))\phi_i^k的学习阶段轻松地重用这个构建块。属性回归器的结构如图2所示,由两个线性层组成,通过批处理规范化[17]和校正线性单元(ReLU)[24]交错。虽然这种架构是公认的简单,但在我们的实验中,添加更多的层并没有带来显著的更好的结果。尽管如此,该组件的设计是特定于问题的,并且根据需要预测的属性的特征,可以很容易地被更复杂的变体替换。

    image.png

    3.1.1 学习(Learning)

    属性回归器很容易从每个属性的N个训练元组\{(x_i,s_i)\}_{i+1}^N中训练。因为属性回归器的任务是预测原始特征在哪个区间在这个步骤中,我们不需要将训练数据组织成间隔。
    有问题

    3.2. 特征回归(Feature regression)

    为了实现\phi,我们设计了一个编码器-解码器架构,让人想起传统的自动编码器[1]。然而,我们的目标不是编码然后重建输入,而是生成一个输出,该输出类似于具有所需属性值的对象的特征描述符。

    换句话说,编码器基本上学会了提取特征的本质;然后解码器接受编码并将其解码到所需的结果。一般来说,我们可以将优化问题表述为:

    image.png

    最小化是在一个合适的函数类C上。值得注意的是,当用附加的(预先训练的)属性预测器(参见图3)和损失(\gamma(\phi(x))-{t})^2实现\phi作为编码器-解码器网络时,我们对解码结果几乎没有控制,因为我们不能保证输入的标识被保留。这意味着来自特定对象类的特征可能映射到不再作为该类识别的特征,因为编码器-解码器将只学习“愚蠢”的属性预测器。因此,我们在等式(2)的目标中加入正则化子(regularizer),即我们要求解码结果接近输入,例如在L_2范数中。这将式(2)的优化问题改为:

    image.png

    不同的解释是,这类似于自动编码器网络的损失,增加了目标属性不匹配惩罚。图3展示出了实现要学习\phi的函数类C的编码器-解码器网络。核心构建块是线性层、批处理规范化、ELU[7]和dropout[32]的组合。在最后一个线性层之后,我们添加一个ReLU层来实现\hat{x}∈R_+^D

    3.2.1学习(Learning)

    训练图3的编码器-解码器网络需要对每个给定的属性a∈A使用先验训练的属性回归器\gamma。训练期间,将该属性回归器附加到网络并冻结其权重。因此,仅更新编码器-解码器权重。为了在对象属性范围的每个区间[l_i,h_i]和期望的对象属性值t_k上训练\phi_i^k,我们将训练数据从外部语料库分割成子集S_i,使得\forall(x_n,s_n)∈S_i:s_n∈[l_i,h_i]。一个\phi_i^k是从每一个所需对象属性值t_kS_i学习到的。由于训练是在特征空间X中进行的,因此我们没有卷积层,因此训练在计算上很便宜。测试时,去除属性回归器,只使用经过训练的编码器解码网络(实现\phi_i^k)来合成特征。因此,给定目标|A|属性、每个属性的I个间隔和T个目标值,我们得到|A|\cdot I \cdot T合成函数。

    image.png

    4. 实验(Experiments)

    我们首先讨论如何为编解码网络生成足够的训练数据,然后分别评估我们的体系结构中的每个组件,并在
    最后阐述了它在(1)迁移学习环境下的单样本目标识别和(2)单样本场景识别中的应用。

    4.0.1 数据集(Dataset)

    我们使用Song等人的SUN RGB-D数据集[31]。该数据集包含10335个带有深度图的RGB图像,以及1000多个对象的详细注释(以2d和3d边界框的形式)。在我们的设置中,我们使用对象深度和姿势作为属性,即A=\{depth,pose \}。对于每个ground-truth 3D bounding box,我们提取其质心处的深度值,并获得姿态信息作为3D bounding box沿z轴的旋转。在所有的实验中,我们使用前5335幅图像作为我们的外部数据库,也就是我们假设属性注释可用的数据库。剩下的5000幅图像用于测试,在具体的实验中给出了更多的细节。

    4.0.2 训练数据

    值得注意的是,在SUN RGB-D中,每个对象类的实例数量并不是均匀分布的(evenly distributed),这仅仅是因为该数据集不是专门为目标识别任务设计的。因此,图像也不是以目标为中心的,这意味着目标的位置以及它们发生的深度和姿势有很大的变化。如果只使用真值边界框(ground-truth bounding boxes)来提取训练数据,则很难从每个对象类中提取足够数量且均衡的特征描述符。我们通过利用[14]的fast RCNN detector和选择性搜索生成的目标建议来规避这个问题(circumvent this problem)。具体来说,我们使用与[31]相同的19个对象,将ImageNet模型从[14]微调为SUN RGB-D。然后,我们在训练分割的所有图像上运行检测器,并将检测分数为0.7的建议与2d绝对真值边界框(2D ground-truth bounding boxes)保持足够的重叠(由IoU 大于0.5测量)。这是一种简单的增强技术,可以增加可用的训练数据量。相关的RCNN激活(在fc7层)随后被用作我们的特征。每一个经过重叠和分数阈值处理后留下的建议(proposal),都由对应的真值边界框的属性信息在3d中进行标注。由于该策略生成的描述子数量较多(与真值边界框的数量相比),因此我们可以为每个对象类选择相等的检测数进行训练(1)属性回归器和(2)编码器网络。图4示出了四个示例图像上的训练数据生成。

    image.png
    4.0.3 实施

    在Torch中实现了属性回归器和编码器网络。所有的模型都是使用Adam[19]训练的。对于属性回归器,我们训练了30个阶段(epoch),批次大小(batch size)为300,学习率为0.001。编码器-解码器网络也接受了30个阶段的训练,学习率相同,但批量大小(batch size)为128。训练期间的辍学概率(dropout probability)设置为0.25。测试时没有使用dropout。对于我们的分类实验,我们使用线性C-SVM,如liblinear[11]中所实现的。在Linux系统上,运行Ubuntu16.04,拥有128GB内存和一个Nvidia Titan X,训练一个模型(即一个\phi_i^k)需要大约30秒。由于不需要训练卷积层,因此对计算资源的需求相对较低,突出了AGA在特征空间中的优势。所有受过训练的模型都可以在匿名网址(AnonymousURL)上公开获得。

    4.1. 属性回归(Attribute regression)

    虽然在训练和测试数据集中,我们的数据扩充策略AGA对目标类是不可知的,但是将属性预测性能与训练目标特定回归器的情况进行比较是有趣的。换言之,我们将目标不可知论训练与为S中的每一个目标类训练一个回归器\gamma_j,j∈\{1,…,|S| \}进行比较,这使得我们能够量化在目标不可知论设置(object-agnostic setting)中预测性能的潜在损失。

    表1列出了每个目标深度(in[m])和姿态(in[deg])预测的中间绝对误差(median-absolute-error,MAE)。我们在SUN RGB-的训练分割中训练19个目标类的实例,并在相同目标类的实例上进行测试,但从测试分割中提取。如我们所见,以特定于目标的方式进行训练会降低大多数目标的MAE,包括深度和姿势。这并不奇怪,因为训练数据对每一个特定的目标都更加专业化,这实际上相当于解决了更简单的子问题。然而,在许多情况下,尤其是深度,目标不可知回归器执行标准,除了训练样本较少的目标类(即灯、门等)。我们还注意到,一般来说,由2d数据进行位姿估计比深度估计要困难得多(即使在每像素级,c.f.[22])。然而,我们的识别实验(秒。4.3和4.4)表明,即使姿势预测器的性能一般(mediocre)(由于对称性问题等),沿着这个维度的增强仍然是有益的。

    image.png

    4.2. 特征回归(Feature regression)

    我们评估特征回归器\phi_i^k的性能,即图3中用于生成合成特征的架构部分。在所有的实验中,我们都使用一个重叠的滑动窗口将每个属性a∈A的范围分为I个区间[l_i,h_i]。在深度(Depth)的情况下,我们设置[l_0,h_0]=[0,1]并将每个间隔移动0.5米;在姿势(Pose)的情况下,我们设置[l_0,h_0]=[ 0^{\operatorname{\omicron}},45^{\operatorname{\omicron}}]并移动45^{\operatorname{\omicron}}。我们根据需要生成尽可能多的间隔来覆盖训练数据中的所有属性值。位的宽度/步长(bin-width / step-size)的设置是为了确保每个bin中的特征数量大致相等。对于增强,我们选择0.5,1,…,max(depth)作为深度的目标属性值。对于姿势,选择45^{\operatorname{\omicron}},70^{\operatorname{\omicron}},...,180^{\operatorname{\omicron}}。这将导致深度为T=11目标值,姿势为T=7目标值。

    我们使用两个独立的评估指标来评估\phi_i^k的性能。首先,我们感兴趣的是特征回归器能够多好的生成与所需属性目标值相对应的特征。为了实现这一点,我们通过属性预测器运行每个合成特征\hat{x}并评估所有属性目标t上的MAE,即\gamma(\hat{x})-{t}。表2列出了每个目标(1)在训练数据中看到的目标类的特征和(2)我们从未见过的目标的特征的平均MAE。如表2所示,已见和未见目标的MAE是相似的,这表明编码器-解码器已经学会合成特征,使得\gamma(\hat{x})≈{t}

    第二,我们感兴趣的是合成特征与原始特征有多大的不同。虽然我们无法直接评估(因为我们没有来自多个深度和姿势的特定目标实例的数据),但我们可以评估合成特征与原始特征的“接近程度”。这里的直觉是,特征空间的封闭性表明了目标身份保持合成(object-identity preserving synthesis)。原则上,我们可以简单地计算||\phi_i^k(x)-x||^2,然而,这个L_2范数很难解释。相反,我们计算每个原始特征与其合成变体之间的皮尔逊相关系数\rho(Pearson correlation coefficient),即\rho(x,\phi_i^k(x))。从\rho[-1,1]的范围来看,高值表示与原始特征有很强的线性关系。结果见表2。与我们之前对MAE的结果类似,我们观察到,当对所有目标进行平均时,对于没有出现在训练数据中的目标,平均值略低。然而,这种相关性的下降相对较小。

    总之,我们的结论是,这些结果支持在训练语料库中没有出现的目标类的特征描述符上使用\phi_i^k。这使我们能够在迁移学习设置中进行测试\phi_i^k,我们将在下面的小节进行的单样本实验中看到这一点。

    4.3. 单样本目标识别(Oneshot object recognition)

    首先,我们展示了我们的方法在迁移学习环境中一个单样本目标识别问题上的实用性。具体来说,我们的目标是从外部带注释的数据库(在我们的例子中是sun rgb-d)中可用的目标类实例中学习属性引导的增广器\phi_i^k(attribute-guided augmenters)。我们将这个目标类集合表示为我们的源类S。给定一个来自完全不同目标类集合的实例,表示为目标类T。我们的目标是在T上训练一个判别分类器C,即:C:X→{1,…,|T|}。因此,在这种情况下,S \cap T= \emptyset。注意,T中的目标类实例没有可用的属性注释。这可以被认为是迁移学习的一种变体,因为我们将知识从S中的目标类转移到T中的目标类实例,而不需要任何关于T的先验知识。

    4.3.1设置

    在以下设置中,我们评估了三个先前未看到的目标类集合上的单样本目标识别性能:首先,我们随机选择两组10个目标类,并确保每个目标类在SUN RGB-D的测试分割中至少有100个样本。我们进一步确保S中没有目标类。这保证(1)我们在训练过程中不会看到图像,也不会看到目标类。由于SUN RGB-D没有以目标为中心的图像,因此我们使用真值边界框(ground-truth bounding boxes)来获取实际的目标裁剪。这使我们能够梳理出增强的好处,而不必处理诸如背景噪声之类的混杂因素。这两组目标类分别表示为T_1T_2。我们另外编译了第三组目标类T_3 = T_1 \cup T_2,并注明T_1 \cap T_2 = \emptyset。因此,我们有两个10类问题和一个20类问题。对于T_i的每个目标类,我们收集RCNN FC7特征。

    image.png

    作为基线,我们只使用T_i中每个目标类的单个实例来“训练”线性C-SVM (with L1-normalized features),(SVM cost fixed to 1)。然后使用与支持向量机(SVM)完全相同的参数设置对AGA合成的单实例+特征进行训练。我们重复选择单样本500次,并报告平均识别精度。

    备注。 该实验的设计与[25,第4.3节]类似,但我们(1)不检测目标,(2)在特征空间中进行增强,(3)没有目标特定信息。后者是重要的,因为[25 ]假定存在T_i目标的3D CAD模型,由此可以合成图像。在我们的例子中,扩充不需要任何关于目标类的先验信息。

    4.3.2 结果

    表3列出了不同的单样本训练数据集的分类精度。首先,使用由深度引导特征(+d)增强的原始单样本实例;其次,使用原始特征+姿势引导特征(+d)和第三,两者的组合(+D, P)。总体的,我们观察到添加AGA合成特征在所有情况下都比基线提高了识别精度。对于深度增强特征,增益范围为3-5个百分点;对于姿态增强特征,增益范围平均为2-4个百分点。我们将这种影响归因于从二维数据预测物体姿态的困难,如表1所示。然而,在这两种增强设置中,增益在统计学上都是显著的(W.R.T.基线),如在5%显著性(由表3中的“x”表示)下,通过equal medians的Wilcoxn rank sum test[13]所评估。在原始的单样本特征的基础上增加深度和姿态增强特征,可以最大限度地提高识别精度,提高幅度在4-6个百分点之间。这表明来自深度和姿态的信息是互补的,可以更好地覆盖特征空间。值得注意的是,我们还对Fink[12]的度量学习方法进行了实验,该方法只会导致在基线上可忽略的增益(例如,T1上的33.85%)。

    image.png image.png image.png

    4.4. 基于目标的单样本场景识别(Objectbased oneshot scene recognition)

    动力。我们也可以使用aga进行不同类型的传输,即从目标检测网络到单镜头场景识别的传输。尽管目标检测本身是一项挑战性的任务,但在像imagenet挑战赛这样的比赛中,每年都会取得重大进展。因此,将目标检测的成果扩展到其他相关问题,如场景识别,是非常有吸引力的。使用诸如rcnn[14]之类的精确目标检测器来执行场景识别的系统,可以在一次前向过程中为图像生成全面的注释。一个支持单镜头场景识别的目标检测器可以用最少的额外数据来实现。必须指出的是,这种系统不同于[15、8、6]等基于对象识别的方法,在这些方法中,不需要显式地检测对象。它们将来自对象识别cnn的过滤器应用于图像的多个区域,并从所有区域中提取特征,无论是否找到对象。因此,他们可用的数据足以学习复杂的描述符,如fisher向量(fvs)。另一方面,根据发现的物体数量,探测器可能从图像中产生很少的特征。aga是为这样的场景量身定做的,在这些场景中,rcnn检测到的对象的特征可以被增强。

    设置。为了在这个设置中评估aga,我们选择mit indoor[26]的一个25类子集,其中可能包含rcnn训练的对象。之所以选择这个,是因为我们依赖于一个检测cnn,它有来自sun rgb-d的19个对象的词汇表。目前,这是提供对象及其3d属性的最大的此类数据集。如果有更大的rgb-d对象数据集可用,系统可以很容易地扩展以容纳更多的场景类。由于rcnn对每个场景图像产生的检测很少,因此最好的方法是在不进行增强的情况下,将提议中的rcnn特征合并到一个固定大小的表示中。我们使用最大池作为基线。增强后,使用预测的深度/姿态,图像具有足够的rcnn特征来计算基于gmm的fv。为此,我们使用[8]中的实验设置。基于用于指导扩充的属性,fvs被表示为aug.fv(+d)和aug.fv(+p)。使用固定参数的线性C-SVM进行一次分类。

    结果。表4列出了多次迭代的平均一次识别精度。从结果中可以清楚地看出,提议的aga的好处,因为8月fvs的性能都比最大pooligbabeline高0.5-1%。在增强的FVS和最大池的组合(连接向量)上进行训练,表示为AGA Cl-1、AGA Cl-2和AGA Cl-3,进一步提高约1-2个百分点。最后,我们将增强的fvs与最新的语义fv结合起来[8],并将cnn的特征[38]放在一个镜头分类中。两种组合,表示为aga-sem-fv和aga-places,改进了一个非平凡的边缘(1%点)。

    5. 讨论(Discussion)

    本文提出了一种基于特征空间的属性引导增广方法。实验表明,在单样本识别的情况下,例如训练数据有限的极端情况下,物体属性,如姿态/深度,是有益的。值得注意的是,即使在属性回归器表现平平的情况下(例如在姿态上),结果表明,合成的特征仍然可以为分类过程提供有用的信息。虽然在我们的目标识别实验中,我们确实使用边界框从SUN RGB-D中提取目标裁剪,但这只是为了清楚地梳理出增强的效果。原则上,由于我们的编码器-解码器是以目标不可知的方式进行训练的,因此不需要关于类的外部知识。

    由于SUN RGB-D在两种属性的范围内都表现出很高的可变性,因此沿着这些维度进行增强确实有助于分类器的训练。然而,当可变性受到限制时,例如在受控采集设置下,增益可能不太明显。在这种情况下,可能需要对其他目标属性进行扩充。

    有两个方面对今后的工作特别有意义。首先,用一个特别定制的组件(specifically tailored component)来替换姿态的属性回归器,将有可能改进合成函数的学习,从而产生更真实的合成样本。其次,我们推测(conjecture),随着具有更多注释目标类和属性的附加数据变得可用(例如,[2]),编码器可以利用更多不同的样本,从而更准确地针对属性值建模特征变化。

    参考资料

    [1]
    [2]
    [3]

    论文下载

    [1] Aga: Attribute-guided augmentation

    代码

    [1] rkwitt/AGA

    相关文章

      网友评论

          本文标题:论文阅读(57)Aga: Attribute-guided au

          本文链接:https://www.haomeiwen.com/subject/yzxumctx.html