1. 论文摘要
传统的零样本学习(ZSL)方法通常学习嵌入,例如视觉语义映射,以间接的方式处理看不见的视觉样本。本文利用生成对抗网络(GANs)的优点,提出了一种利用不变边(invariant side)GAN(LisGAN)的方法,该方法可以直接从语义描述约束的随机噪声中生成看不见的特征。具体地说,我们训练了一个条件化的Wasserstein GANs,在这个GANs中,生成器通过噪声合成假的看不见的特征,鉴别器通过一个minimax游戏区分假的和真的。考虑到一个语义描述可以对应各种合成的视觉样本,语义描述是生成特征的灵魂,本文引入了灵魂样本作为生成零样本学习的不变边。灵魂样本是一个类的元表示。它将同一类别中每个样本最有语义意义的方面可视化。我们规定,每个生成的样本(生成ZSL的变化侧)应该至少接近一个具有相同类标签的灵魂样本(不变侧)。在零样本识别阶段,我们建议使用两个分类器,它们以级联方式部署,以获得从粗到细的结果。在五个流行的基准上进行的实验证明,我们提出的方法可以在显著改进的情况下优于最先进的方法。
2. 主要思想
2.1 主要概念
(1)不变边(invariant side)
灵魂样本作为生成零样本学习的不变边。灵魂样本是一个类的元表示。
(2)考虑到一个语义描述可以对应大量的视觉样本,有限的语义信息限制了零样本学习的性能。
2.2 主要挑战
因此,零样本学习的生成对抗网络必须挑战两个问题:1)如何保证基于有限甚至相似属性的生成具有多样性?2)如何确保每个生成的样本与真实样本和对应的语义描述高度相关?
2.3 解决思路
首先,为了保证生成的样本是有意义的,我们提出从随机噪声中生成样本,这些随机噪声受类语义描述的约束。同时,还引入了GAN鉴别器中的监督分类损失,以保护对抗训练中的班间歧视。此外,为了保证每个合成样本(生成零镜头学习的变化侧)与真实样本和相应的语义描述(不变侧)高度相关,本文引入了灵魂样本,如图3所示。对于未看到的类,生成的示例的视觉特征仅取决于语义描述。因此,语义信息是生成样本的灵魂。灵魂样本必须不是很具体,这样它才能清楚地看到最有语义意义的方面,并尽可能多地与样本相关。因此,对于所看到的图像,我们定义灵魂样本是它们的平均表示。对于生成的样本,我们将其规则化为接近灵魂样本。因此,我们可以保证每个生成的样本都与真实的样本和相应的语义描述高度相关。
2.4 主要贡献
总之,本文的主要贡献是:
1)我们提出了一种新的利用生成对抗网络的ZSL方法LisGAN。具体来说,我们部署有条件的GANS来解决两个问题:生成多样性和生成可靠性。为了提高生成特征的质量,我们引入了灵魂样本,定义为每个类别的表示。通过进一步考虑不同图像的多视角性质,我们提出为每个类定义多个灵魂样本。我们将每一个生成的样本规则化,使其接近至少一个灵魂样本,从而使生成零镜头学习中的变化侧不会脱离不变侧。
2)在零样本识别阶段,我们建议,如果我们对识别一个看不见的样本有很高的信心,那么该样本(带有指定的伪标签)将被用作识别其他看不见样本的参考。具体地说,我们建议使用两个分类器,以级联的方式部署,以获得从粗到细的结果。本文还提出了一种简单而有效的分类置信度度量方法。
3)对五个广泛使用的数据集进行了大量的实验,验证了我们提出的方法能够以显著的改进超越最先进的方法。
3. 方法
3.1
语义描述,二进制/数字向量或word embedding/RNN 特征。每个语义描述对应一个类别。
论文中GAN生成的是视觉特征而不是图像像素。
3.2
Since the soul samples of a category should reflect the most remarkable characteristics of the class as much as possible, we deploy the average representation of all samples from the category c to define the soul sample of c, which is similar with prototypical networks for few-shot learning [31].
在本文中,为了确保每个生成的特征与语义描述和真实样本高度相关,我们引入了灵魂样本来规范生成器。由于一个类别的灵魂样本应该尽可能地反映出该类别最显著的特征,因此我们使用该类别中所有样本的平均表示来定义的灵魂样本,这与用于少数镜头学习的原型网络类似[31]。
(2)Apart from generating visual features from noises, GANs can also be used for semantic augmentation in zero-shot learning. In our future work, we will incorporate semantic data augmentation in our model to cover more unseen samples.
嵌入方法通过间接的方式处理看不见的样本,而GAN方法通过将其转换为有监督的学习任务来直接处理。结果表明,GAN是一种很有前途的解决零样本学习问题的方法。除了从噪声中产生视觉特征外,GANs还可以用于零样本学习中的语义增强。在我们未来的工作中,我们将在模型中加入语义数据扩充,以覆盖更多未看到的样本。
(3)
我们的方法的性能提升可以归结为两个方面。一个是我们引入了灵魂样本,以保证每个生成的样本都与语义描述高度相关。灵魂样本的正则化也解决了多视图特性。因此,它可以自动处理零样本学习中不同视图引起的域移位问题。另一方面,我们的级联分类器能够利用来自第一个分类器的结果并加强第二个分类器。这种配方通过粗到细的方式提供结果。结果表明,利用生成ZSL的不变边是有益的。不变边正则化保证了每一个合成样本都与真实样本和相应的语义描述高度相关。
(4)we can see that our method generally has better accuracy on most of the categories. Notably, we can see that the accuracy on category “tvmonitor”, “donkey” and “jetski” are boosted around 10% against f-CLSWGAN. There is also a common phenomenon that the ZSL methods perform poorly on some unseen categories. We will investigate fine-grained / classwise zero-shot learning in our future work.
我们的方法在大多数类别上通常具有更好的准确性。值得注意的是,我们可以看到,与F-CLSWGAN相比,“电视监视器”、“驴子”和“喷气式飞机”类的精确度提高了10%左右。还有一种常见的现象,即zsl方法在某些看不见的类别上表现不佳。我们将在未来的工作中研究细粒度/类化的零样本学习。
参考论文
[1] [Leveraging theInvariant Side of Generative Zero-Shot Learning][https://arxiv.org/abs/1904.04092]
网友评论