美文网首页
Adversarial Discriminative Domai

Adversarial Discriminative Domai

作者: 深度学习努力中 | 来源:发表于2019-05-31 17:41 被阅读0次

版权声明:本文为原创文章,未经博主允许不得转载。 

本论文发表于2017年 CVPR,论文地址  Adversarial Discriminative Domain Adaptation

摘要

    对抗性学习方法是一种用于训练健壮的深度网络的有前景的方法,并且可以在不同的域中生成复杂的样本。尽管存在域移位或数据集偏差,它们也可以提高识别率:最近引入了几种针对无监督域自适应的对抗方法,这减少了训练和测试域分布之间的差异,从而提高了泛化性能。先前的生成方法显示出引人注目的可视化,但在判别任务上并不是最优的,并且可能限于较小的域移位。先前的判别方法可以处理更大的域移位,但是对模型施加绑定权重并且没有利用基于GAN的损失,我们首先概述了一种新的对抗性适应的通用框架,它将最新的方法作为特殊情况包含在内,并且我们使用这种广义视图来更好地联系先前的方法。我们提出了一个以前未探索的我们的通用框架实例,它结合了判别模型,无条件权重共享和GAN损失,我们称之为Adversarial Discriminative Domain Adaptation(ADDA)。我们证明ADDA比竞争的域对抗方法更有效但相当简单,并通过在标准跨域数字分类任务和新的更难以跨模态的对象分类任务上超越最先进的无监督适应结果来证明我们的方法的前景。

1 介绍

    深度卷积网络,当在大规模数据集上训练时,可以学习在各种任务和视觉领域中通用的表示[1,2]。 然而,由于称为数据集偏差域移位[3]的现象,在一个大型数据集上与这些表示一起训练的识别模型不能很好地推广到新的数据集和任务[4,1]。 典型的解决方案是在任务特定的数据集上进一步微调这些网络 - 但是,它往往非常困难且昂贵获得足够的标记数据,以适当微调深层多层网络所使用的大量参数。

    域适应方法试图减轻域移位的有害影响。 最近的域适应方法学习深度神经变换,将两个域映射到共同的特征空间。 这通常通过优化表示来实现,以最小化域移位的一些度量,例如最大平均差异[5,6]或相关距离[7,8]。 另一种方法是从源表示中重建目标域[9]。

    对抗性适应方法已成为这种类型的方法的越来越流行的化身,其寻求通过关于域鉴别器的对抗性目标来最小化近似域差异距离。这些方法与生成式对抗性学习密切相关[10],它使两个网络相互对立 - 一个生成器和一个鉴别器。生成器以混淆鉴别器的方式产生图像,鉴别器又试图将它们与真实图像示例区分开来。在域适应中,已采用该原理来确保网络无法区分其训练和测试域示例的分布[11,12,13]。但是,每种算法都会做出不同的设计选择,例如是否使用生成器,使用哪种丢失函数,或者是否跨域共享权重。例如,[11,12]共享权重并学习源图像和目标图像的对称映射到共享特征空间,而[13]解耦一些层,从而学习部分不对称的映射。

    在这项工作中,我们提出了一个新的统一的对抗域适应框架,使我们能够有效地检查现有方法之间不同因素的差异性,并清楚地查看它们各自共享的相似性。我们的框架统一了设计选择,如权重共享,基础模型和对抗性损失,并包含以前的工作,同时也促进了新颖的设计改进现有实例的实例化。

    特别是,我们观察到输入图像分布的生成建模不是必需的,因为最终的任务是学习判别表示。另一方面,非对称映射可以比对称映射更好地模拟低级特征3的差异。因此,我们提出了一种先前未探索的无监督对抗性适应方法,即对抗性判别域适应(ADDA),如图1所示.ADDA首先使用源域中的标签学习判别表示,然后使用单独的编码来映射目标数据到同一空间通过域对抗性损失学习的非对称映射。我们的方法简单但功能强大,并且在MNIST,USPS和SVHN数字数据集上实现了最先进的视觉自适应结果。我们还通过将对象分类器从RGB彩色图像转移到深度观察来测试其弥合更困难的跨模态转换之间的差距的潜力,而不需要实例约束。

图1 我们提出了一种改进的无监督域自适应方法,它将对抗性学习与判别性特征学习相结合。 具体来说,我们通过欺骗尝试从源图片中区分编码目标图像的域鉴别器来学习目标图像到源特征空间(目标编码器)的判别映射。

2相关工作

    关于域转移学习的广泛的先前工作,参见例如[3]。 最近的工作集中在将标记的源数据集的深度神经网络表示转移到标记数据稀疏或不存在的目标域。 在未标记的目标域(本文的重点)的情况下,主要策略是通过最小化源和目标特征分布之间的差异来指导特征学习[11,12,5,6,8,9,13]。

    为此目的,有几种方法使用最大平均差异(MMD)[3]损失。 MMD计算两个域均值之间差异的范数。 除了源上的常规分类丢失之外,DDC方法[5]使用MMD来学习既具有判别性又具有域不变性的表示。 深度适应网络(DAN)[6]将MMD应用于嵌入在再生内核Hilbert空间中的层,有效地匹配两个分布的高阶统计量。 相比之下,深度相关对齐(CORAL)[8]方法被提议用于匹配两个分布的均值和协方差。

    其他方法选择了对抗性损失以最小化域移位,学习同时区分源标签而不能区分域的表示。 [12]建议添加域分类器(单个完全连接层),预测输入的二进制域标签,并设计域混淆损失,以鼓励其预测尽可能接近二进制标签上的均匀分布。 [11]中提出的梯度反转算法(ReverseGrad)也将域不变性视为二元分类问题,但通过反转其梯度直接最大化域分类器的损失。 DRCN [9]采用了类似的方法,但也学会了重建目标域图像。

    在相关工作中,已经针对生成任务探索了对抗性学习。生成对抗网络(GAN)方法[10]是一种生成性深层模型,它将两个网络相互对立:捕获数据分布的生成模型G和区分从G中抽取的样本和从通过预测成一个二进制标签的训练数据中抽取的图像的判别模型D.通过预测二进制标签来训练数据。在标签预测上使用反向传播以最小-最大方式联合训练网络:同时更新G以最小化损失,同时更新D以最大化损失(欺骗鉴别器)。 GAN优于其他生成方法的优点是在训练期间不需要复杂的采样或推理;缺点是可能很难训练。已经应用GAN来生成物体的自然图像,例如数字和面部,并且已经以多种方式扩展。BiGAN方法[14]扩展了GAN,也学习了从图像数据到潜在空间的逆映射,并表明这可以学习对图像分类任务有用的特征。条件生成对抗网(CGAN)[15]是GAN的扩展,其中网络G和D都接收附加的信息向量作为输入。这可能包含有关训练示例类的信息。作者应用CGAN生成(可能是多模态的)标签向量分布,条件是图像特征。

    最近,CoGAN [13]方法通过训练两个GAN分别生成源图像和目标图像,将GANs应用于域转移问题。 该方法通过绑定两个GAN的高级层参数来实现域不变特征空间,并且展示出相同的噪声输入可以从两个分布生成相应的一对图像。 通过在鉴别器输出上训练分类器并应用于MNIST和USPS数字之间的移位来执行域自适应数据集。 但是,此方法依赖于生成器查找从共享高级别图层特征空间到两个域中的完整图像的映射。 这可以很好地说明在更多不同域的情况下可能很难区分不同的数字。 在本文中,我们观察到,只要潜在特征空间是域不变的,对图像分布进行建模并不是实现域自适应所必需的,并提出了一种判别方法

3通用的对抗性适应

    我们提出了对抗无监督适应方法的通用框架。 在无监督的自适应中,我们假设访问源图像Xs和从源域分布ps(x,y)绘制的标签Ys,以及从目标分布pt(x,y)绘制的目标图像Xt,其中没有标签观察结果。 我们的目标是学习目标表示,Mt和分类器Ct,它可以在测试时将目标图像正确地分类为K类别中的一个,尽管缺少域注释。 由于无法对目标进行直接监督学习,因此域自适应学习源表示映射Ms以及源分类器Cs,然后学习如何使该模型适用于目标域。

    在对抗自适应方法中,主要目标是规范源和目标映射(Ms和Mt)的学习,以便最小化经验源和目标映射分布之间的距离:Ms(Xs)和Mt(Xt)。 如果是这种情况,那么源分类模型Cs可以直接应用于目标表示,从而消除了学习单独目标分类器的需要,而是设置C = Cs = Ct。

    然后使用下面的标准监督损失训练源分类模型:

    我们现在能够描述对抗性适应方法的完整总体框架视图。我们注意到,所有方法都通过两个函数之间的交替最小化来最小化源和目标表示距离。 首先是域鉴别器D,它分类器是是否从源域还是目标域绘制数据点。 因此,D根据标准监督损失LadvD(Xs,Xt,Ms,Mt)进行优化,其中标签代表源域,定义如下:

    其次,源映射和目标映射根据约束的对抗目标进行优化,其特定的实例可以在不同方法之间变化。 因此,我们可以推导出以下域对抗技术的通用公式:

    在接下来的部分中,我们通过在框架中定位最近的域对抗方法来展示我们框架的价值。 我们描述了潜在的映射结构,映射优化约束(ψ(Ms,Mt))选择以及最终选择对抗映射损失,LadvM。

图2:我们用于对抗域适应的通用架构。 现有的对抗性适应方法可以被视为我们框架的实例,其中有关其属性的不同选择。

3.1源和目标映射

    在单独学习源映射Ms的情况下,显然使用已知标记Ys通过潜在空间判别性损失的监督训练导致最终源识别的最佳表示。 但是,鉴于我们的目标域未标记,如何最好地最小化源映射和目标映射之间的距离仍然是一个悬而未决的问题。 因此,要做的第一个选择是这些映射的特定参数化。

    因为无监督域适应通常考虑目标判别任务,例如分类,所以先前的适应方法通常依赖于适应域之间的判别模型[12,16]。 利用判别基础模型,输入图像被映射到特征空间,该特征空间对于诸如图像分类的辨别任务是有用的。 例如,在数字分类的情况下,这可能是标准的LeNet模型。 然而,Liu和Tuzel使用两个生成对抗网络在无监督的MNIST-USPS上取得了最先进的结果[13]。 这些生成模型使用随机噪声作为输入以在图像空间中生成样本 - 通常,对抗性鉴别器的中间特征用作训练任务特定分类器的特征。

    一旦确定了源的映射参数化,我们必须决定如何参数化目标映射Mt. 通常,目标映射几乎总是在特定功能层(架构)方面与源匹配,但是不同的方法已经提出了各种正则化技术。 所有方法都使用源初始化目标映射参数,但不同的方法在源映射和目标映射之间选择不同的约束,ψ(Ms,Mt)。 目标是确保设置目标映射,以便在它们各自的映射下最小化源域和目标域之间的距离,同时关键地还保持目标映射是类别判别的。

   考虑一个分层表示,其中每个层参数表示为M`s或M`t,对于给定的一组等效层,{`1 ,.。。 ,`n}。 然后,文献中探讨的约束空间可以通过分层等式约束来描述如下:

    其中每个单独的层可以独立约束。 一种非常常见的约束形式是源和目标分层相等。

    保持层不受约束也是很常见的。通过权重共享,可以在卷积网络框架内轻松实施这些平等约束。

    对于许多先前的对抗性适应方法[16,12],所有层都受到约束,从而实现精确的源和目标映射一致性。 学习对称变换可以减少模型中参数的数量,并确保至少在应用于源域时,用于目标的映射是有区别的。 然而,这可能使得优化条件很差,因为相同的网络必须处理来自两个单独域的图像。

    另一种方法是学习非对称变换,只有一部分层被约束,从而强制部分对齐。 Rozantsev等。 [17]表明,部分共享权重可以导致有监督和无监督设置的有效适应。 因此,最近的一些方法有利于在两个域之间解除权重(完全或部分),允许模型单独学习每个域的参数。

3.2 对抗损失

    一旦我们决定了Mt的参数化,我们就会利用对抗性损失来学习实际的映射。 对抗性损失函数有各种不同的可能选择,每种函数都有自己独特的用例。 所有对抗性损失都使用标准分类损失LadvD训练对抗性鉴别器,之前在方程式2中说明。然而,它们在用于训练映射的损失方面有所不同,LadvM。

    [16]的梯度反转层优化了映射,以直接最大化鉴别器损失:

    这种优化对应于生成对抗性网络的真正极小极大目标。 然而,这个目标可能是有问题的,因为在训练期间早期鉴别器快速收敛,导致梯度消失。

    在训练GAN时,不是直接使用极小极大损失,而是通常使用带有倒置标签的标准损失函数训练生成[10]。 这将优化分为两个独立的目标,一个用于生成器,一个用于鉴别器,其中LadvD保持不变,但LadvM变为:

        该目标具有与极小极大损失相同的定点属性,但为目标映射提供了更强的梯度。我们将这种修改的损失函数称为本文其余部分的“GAN损失函数”。

    请注意,在此设置中,我们使用源和目标的独立映射,并且只能学习对抗性的Mt.这模仿了GAN设置,其中实际图像分布保持固定,并且学习生成分布以匹配它。

    GAN损失函数是生成器试图模仿另一个不变分布的设置中的标准选择。 然而,在两个分布都在变化的设置中,这个目标将导致振荡 - 当映射收敛到其最优时,鉴别器可以简单地翻转其预测的符号作为回应。 Tzeng等。 相反,提出了域混淆目标,在该目标下,使用交叉熵损失函数对均匀分布训练映射[12]:

    
这种损失确保了对抗性鉴别器以相同的方式查看这两个域。

4 对抗判别域适应

    我们的域对抗方法的通用框架的好处是它直接支持开发新的自适应方法。 实际上,设计一种新方法现在已经简化为三种设计选择的空间:是使用生成性还是判别性基础模型,是否绑定或解除权重,以及使用哪种对抗性学习目标。 根据这种观点,我们可以根据我们的选择(参见表1“ADDA”)总结我们的方法,对抗性判别域适应(ADDA),以及它与先前工作的关系。 具体来说,我们使用判别基础模型,非共享权重和标准的GAN损失。 我们在图3中说明了我们的整体训练顺序过程。

图3:我们提出的Adversarial Discrimtivetive Domain Adaptation(ADDA)方法的概述。 我们首先使用标记的源图像示例预训练源编码器CNN。 接下来,我们通过学习目标编码器CNN来执行对抗自适应,目标编码器就像一个判别器,可以看见源和目标数据但不可靠地预测他们的域标签。在测试期间,目标图像与目标编码器一起映射到共享特征空间并由源分类器分类。 虚线表示固定的网络参数。

    首先,我们选择一个判别基础模型,因为我们假设生成令人信服的域内样本所需的大部分参数与判别性适应任务无关。 由于这个原因,大多数先前的对抗性自适应方法直接在判别空间中进行优化。 一个反例是CoGAN。 然而,这种方法仅在源和目标域非常相似的设置中显示出优势,例如MNIST和USPS,并且在我们的实验中,我们难以使其收敛以进行更大的分布转移。

    接下来,我们选择通过解开权重来允许独立的源和目标映射。 这是一种更灵活的学习范式,因为它允许学习更多领域特定的特征提取。 但是,请注意目标域没有标签访问权限,因此如果我们不注意正确的初始化和培训过程,如果没有权重共享,目标模型可能会很快学会退化解决方案。 因此,我们使用预先训练的源模型作为目标表示空间的初始化,并在对抗训练期间固定源模型。

    在这样做的过程中,我们正在有效地学习非对称映射,在该映射中我们修改目标模型以匹配源分布。 这与原始的生成对抗性学习设置最相似,其中生成的空间被更新,直到它与固定的真实空间无法区分。 因此,我们选择上一节中描述的反转标签GAN损失。

   因此,我们提出的方法ADDA对应于以下无约束优化:

    我们选择分阶段优化这一目标。 我们首先通过使用标记的源数据Xs和Ys进行训练来优化Ms和C上的Lcl。 因为我们选择在学习Mt时选择固定Ms,所以我们可以优化LadvD和LadvM,而无需重新审视第一个目标术语。 图3提供了整个训练过程的总结。

    我们注意到,上一节中介绍的统一框架使我们能够比较先前的域对抗方法,并对不同的变异因素做出明智的决策。 通过这个框架,我们能够激发一种新的领域适应方法ADDA,并提供对我们的设计决策的洞察力。 在下一节中,我们展示了对无监督的适应基准任务的有希望的结果,研究了跨数字和跨模态的适应性。

5 实验

    我们现在评估ADDA在四个不同的域移位中的无监督分类适应。我们探索了不同难度的三个数据集:MNIST [18],USPS和SVHN [19]。我们另外评估了NYUD [20]数据集,以研究跨模态的适应性。来自所有实验数据集的示例图像在图4中提供。

    对于数字自适应的情况,我们与多种最先进的无监督自适应方法进行比较,所有这些都基于域对抗性学习目标。 在我们的4个实验设置中的3个中,我们的方法优于所有竞争方法,并且在所研究的最后一个域移位中,我们的方法优于除了一种竞争方法之外的所有方法。

    我们还使用NYU深度数据集在真实世界模态适应任务上验证我们的模型。 尽管RGB和深度模态之间存在较大的域移位,但ADDA在没有任何标记深度数据的情况下学习了有用的深度表示,并且在非自适应基线上的改进超过了50%(相对)。

5.1 MNIST,USPS和SVHN数字数据集

    我们在MNIST [18],USPS和SVHN [19]数字数据集之间的无监督调整任务中实验验证了我们提出的方法,该数据集由10个数字类组成。 来自每个数据集的示例图像在图4和表2中可视化。对于MNIST和USPS之间的适应,我们遵循在[21]中建立的训练协议,从MNIST采样2000图像和从USPS采样1800.对于SVHN和MNIST之间的适应,我们 使用完整的训练集进行比较[16]。 所有实验都在无监督的设置中进行,其中目标域中的标签被保留,我们考虑在三个方向上进行适应:MNIST→USPS,USPS→MNIST和SVHN→MNIST.

图4:我们在两种不同设置中对四个域移位的无监督自适应评估ADDA。 第一个设置是MNIST,USPS和SVHN数据集之间的适应(左)。 第二个设置是来自纽约大学深度数据集的RGB和深度模态之间具有挑战性的跨模态适应任务(右)。

    对于这些实验,我们使用Caffe源代码[18,22]中提供的简单修改的LeNet架构。 在使用ADDA进行训练时,我们的对抗性鉴别器由3个完全连接的层组成:两层具有500个隐藏单元,后面是最终鉴别器输出。 每个500单元层使用ReLU激活功能。

    我们的实验结果在表2中提供。在更简单的MNIST和USPS转换中,ADDA实现了与当前最先进的CoGAN [13]相当的性能,尽管它是一个相当简单的模型。 这提供了令人信服的证据,证明生成图像所需的机器与实现有效适应无关。 此外,与其他方法相比,我们在具有挑战性的SVHN和MNIST任务中显示出令人信服的结果,表明我们的方法有可能推广到各种设置。 相比之下,我们无法让CoGAN收敛到SVHN和MNIST--因为这些域非常不同,我们无法为它们训练耦合发生器。

表2:MNIST,USPS和 SVHN之间无监督适应的实验结果

5.2 模态适应

    我们使用NYU深度数据集[20],其中包含来自室内场景的1449个图像中的19个对象类的边界框注释。 数据集被分成火车(381图像),val(414图像)和测试(654)。 为了执行我们的跨模态自适应,我们首先围绕数据集中存在的这19个类的实例裁剪出紧密的边界框,并评估对象作物的19向分类任务。 为了确保相同的实例不是在两个域中都可以看到,我们使用来自train的分割的RGB图像作为源域,并将来自val的深度图像分割为目标域。 这对应于2,186个标记的源图像和2,401个未标记的目标图像。 图4显示了两个域中每个域的样本。

    我们考虑这些RGB和HHA编码深度图像之间的适应任务[23],分别使用它们作为源域和目标域。 由于边界框紧密且分辨率相对较低,因此即使在域内进行评估时,准确分类也非常困难。 此外,数据集对于某些类别(例如厕所和浴缸)的示例非常少,这直接转化为降低的分类性能。

    对于这个实验,我们的基础架构是VGG-16架构,从ImageNet上预先训练的权重进行初始化[24]。 然后使用批量大小128在源域上对该网络进行20000次迭代的完全微调。当使用ADDA进行训练时,对抗性鉴别器由三个额外的完全连接层组成:1024个隐藏单元,2048个隐藏单元,然后是对抗性鉴别器输出。 除输出外,这些额外完全连接的层使用ReLU激活功能。 然后,ADDA培训再进行20,000次迭代,批次大小为128次。

    我们发现我们的方法ADDA极大地提高了该任务的分类准确性。 对于某些类别,如计数器,分类准确度从仅来源基线下的2.9%到适应后的44.7%。 一般而言,所有类的平均准确率从13.9%显着提高到21.1%。 但是,并非所有类都有所改进。在适应之前,三个类没有正确标记的目标图像,并且适应后无法恢复这些类的性能。 此外,枕头和床头柜的类别在适应后遭受性能损失。

    有关ADDA对分类的影响的其他见解,图5绘制了适应之前,适应之后以及存在目标标签的假设最佳情况下的混淆矩阵。 检查仅源基准的混淆矩阵表明域移位非常大 - 因此,网络条件很差并且错误地预测了大部分数据集的枕头。 这种输出枕头的趋势也解释了为什么仅有源模型在枕头类上达到如此异常高的精度,尽管其他类别的表现不佳。

    相反,使用ADDA训练的分类器预测了更多种类。 这导致枕头类别的准确度降低,但是对于许多其他类别而言显着更高的准确度。 此外,与“目标训练”模型的比较表明,ADDA模型所犯的许多错误都是合理的,例如椅子和桌子类之间的混淆,表明ADDA模型正在学习深度图像的有用表示。

表3:NYUD [20]数据集的自适应结果,使用来自训练集的RGB图像作为源和来自val集的深度图像作为目标域。 由于目标集中的大类不平衡(在#实例中表示),我们在此报告每个类的准确性。 总体而言,我们的方法将每类别的平均准确度从13.9%提高到21.1%。 图5:仅源,ADDA和 在NYUD RGB到深度适应实验的oracle监督目标模型的混淆矩阵。 我们观察到我们的无监督自适应算法产生了更有利于识别最流行的椅子类的空间。

6 结论

    我们已经提出了一个基于对抗性学习目标的无监督域自适应技术的统一框架。我们的框架提供了一种简化和有凝聚力的视图,通过该视图我们可以理解并联系最近提出的适应方法之间的相似点和不同点通过这种比较,我们能够理解每种方法的好处和关键思想,并将这些策略结合到一种新的适应方法ADDA中。

    我们针对无监督的适应方法提出了四个域移位的评估。我们的方法可以很好地概括各种任务,在基准适应数据集上获得强大的结果,以及具有挑战性的交叉模态适应任务。附加分析表明,通过ADDA学习的表示类似于在目标域中使用监控数据学习的特征比未适应的特征更接近,提供了进一步的证据,即ADDA可有效地部分地消除域移位的影响。

相关文章

网友评论

      本文标题:Adversarial Discriminative Domai

      本文链接:https://www.haomeiwen.com/subject/uahgtctx.html