一 写在前面
未经允许,不得转载,谢谢~~
文章基本信息:
- CVPR 2018
- 原文链接
文章主要内容就如题目所示将webly supervised learning网络数据监督学习和zero shot learning结合起来来做细粒度图像分类任务,并在3个不同的数据集上取得了不错的结果。
关键词:webly supervised learning, zero-shot learning, fine-grained classification;
二 基本背景介绍
1. 关于细粒度图像分类
细粒度图像分类指的是对于具有细微差别的类别进行区分,例如区分狗狗或者小猫的具体品种。
这种任务就会对于数据标注具有非常高的要求:
- 需要在相关细分领域具有专业知识的人才能完成标注数据;
- 子类数量非常多,以鸟为例,就具有14000种类别,很难搜集到所有类的训练图像;
2. 相关研究方向
针对以上问题,就会出现能否在尽可能少得利用人工标注数据的情况下完成该细粒度分类任务,作者认为主要可以存在以下两种思路解决问题:
-
WSL(webly supervised learning)
- 用类别名到网上直接抓取图像作为训练数据;
- 但是这样获得的数据会具有label有噪声以及训练集数据与测试集数据存在图像域分布不匹配(domain distribution mismatch)的问题;
-
ZSL (zero-shot learning)
- 对于某一些细粒度类别具有非常好的人工标注数据(well-label training images);
- 但是从这个seen images到unseen images扩展的过程中始终会有一个gap;
- 尽管已经很多类似的方法在做,但仍然与强监督学习的效果相差甚远;
-
domain adaption
- 从source domain(训练数据)到target domain(测试数据)存在一个图像域迁移问题;
三 本文方法框架
文章基于以上的情况,提出将WSL和ZSL两种方法结合的方法来解决细粒度分类问题。
问题具体可以理解为假设有14000个鸟的种类,其中只有一部分(100类)是有精确人工标注数据的,这一部分数据我们称之为well-labeled images,现在我们想利用网上的资源和现有的这点标注数据进行学习,最终达到能预测测试集图像的所属类别的效果。
整体的处理方法如下图所示:
处理方法
3.1 处理流程
我们来看一下具体的流程(在图中简单标注了一下各个步骤的顺序,画的有点小丑啊哈哈(✪ω✪)):
-
我们先来看一下网络的输入,图中用红色框标注:
- test categories:没有人工数据的测试类别的名称,后续用来获取对应的web images;
- auxiliary categories with well-labeled data:人工标注过的数据;
- test images:测试图片
-
第1步:用测试图的名称输入到搜索引擎中得到一批索索结果noisy web images,如图所示这样得到的训练图像可能会出现错误的情况;
-
第2步:为所有的图像(web training images、well-labeled training images、test images)都用神经网络获取到对应的图像特征(视觉特征);
-
第3步:用网上免费的语料训练过的语言模型为所有类别名抽取得到语义表示(word vector);
-
第4步:将以上得到的三种图像的特征还有根据类别名得到的语义特征都作为leaning model的输入,得到预测结果。
3.2 核心学习模块
图中的learning model即为核心的学习模型,要求能够同时处理一下问题:
- label noise;
- web training images和test images的图像domain偏移问题;
- 将well-labeled training categories的知识迁移到test categories中;
同样文章中的webly supervisd也具有双重意义:
- 为test categories从网上获取noisy web training images;
- 基于免费的网上语料库利用类别之间的予以信息来缩小测试图像类别和well-labeled类别之间的差距;
- 我们将web training images作为weakly supervised learning的过程;
- 我们将well-labeled images作为full supervised learning的过程;
3.3 文章主要贡献
- 同时用web datda和well-labeled data 用于细粒度图像分类问题;
- 提出一个新奇的learning model能够有效且高效的将WSL和ZSL两个方法联合起来并解决以上问题;
- 在三个benchmarks上面实验展示了本文模型的有效性;
写在最后
关于文章的内容就介绍到这里,后边还有一块内容是关于learning model具体是如何对问题进行建模的,然后解决knowledge transfer、如何利用noisy web images以及如何对公式进行优化的过程。
原文给出了非常细致且清晰的公式推理过程,因为简书不支持公式,就不整理出来给大家了。
感兴趣的还是建议自己去看一看哦~~
网友评论