在零样本学习(ZSL)中,一个重要的问题是如何有效的从其他来源获取知识。现在通行的ZSL方法中。Word-Embedding/Attribute是主要的知识来源,统称为Semantic Embeddings。然而其他的知识来源也可能非常有效。
马普所在论文Evaluation of output embeddings for fine-grained image classification中衡量了多种不同Semantic embedding对ZSL的效果。然而该论文对各种Semantic Embedding的来龙去脉甚为含糊,后续的研究中也鲜有提及。为了搞清楚各种不同的知识来源的来龙去脉,我们回顾马普所的系列研究中的经典论文之二:Evaluating Knowledge Transfer and Zero-Shot Learning in a Large-Scale Setting
经典论文之一:经典重读:What Helps Where – And Why? Semantic Relatedness for Knowledge Transfer
本文关注了大规模数据集ILSVRC2010上,使用不同的Knowledge来挖掘有效信息(Attribute或Hierarchy结构),本文评估了这些Knowledge为分类任务带来的影响。评估主要在普通分类和Zero Shot分类两个任务上进行。
本文评估的Knowledge包括:
-
ILSVRC数据集中的Hierarchy结构。这种结构体现了物体类别的总-分结构如下图所示:
数据集中的Hierachy结构
该结构为物体分类提供了额外的信息,例如:普通的1000-way分类只知道parsnip和turnip是不同的物体。但是利用Hierarchy结构提供的信息表明Parsnip和turnip虽然不同,但是实际上有相同的父节点,因而两者比其他类别更相似。使用Hierachy结构信息辅助分类有下述三种方式:
- Baseline:只使用Hierarchy中的叶节点监督训练,即普通的1000-way分类
- 使用Hierarchy中的内部节点作为一个标签参与监督训练(参照公式1)
- 使用Hierarchy中的内部节点+叶节点监督训练(参照公式2)
-
借助WordNet的整体-局部关系挖掘的Attribute(得到811个Attribute)。整体-局部关系在WordNet中的编码如下图所示:
WordNet中包含的整体-局部关系
Attribute赋值由以下方法实现:
- 赋值(即计算label与每一个Attribute的相似度)由基于Wiki的词向量内积实现
- 赋值由 Web搜索引擎的label和Attribute的记录数量决定(Yahoo Holonyms与Yahoo Snippet是经典论文之一中Yahoo Web的两种不同改进,该改进启发和贡献不大,因而此处略过不谈)。
- 赋值由 图像搜搜引擎的label和Attribute的记录数量决定。
- 越过Attribute,直接使用一组基类别y_i来表示其他类别z(参照本链接中的图2.b)。即有z = \sum_i \alpha_iy_i。为了确定系数\alpha_i,本文使用类似于赋值Attribute的方式:
- \alpha_i(即计算z与每一个yi的相似度)为词向量(基于Wiki)内积。
- \alpha_i由 Web搜索引擎的label和Attribute的记录数量决定(Yahoo Holonyms与Yahoo Snippet)。
- \alpha_i由 图像搜搜引擎(Yahoo Image)的label和Attribute的记录数量决定。
这些方法在普通分类上的结果如下表:
在ZSL分类上的结果如下表:
上述结果的启示有:
1.Hierarchy信息对普通分类带来了一些干扰,这说明Hierarchy信息当中存在噪音。
- Hierarchy信息对ZSL带来了改善,这说明Hierarchy当中存在有益于知识迁移的部分。
- 基于Attribute的方法在两个任务中都表现不佳,这是因为Attribute Mining(即决定采用哪811个Attribute,以及为什么是811个)和Attribute Association(即为Attribute赋值)两个过程都引入了噪声。
- Combine Attribute能够融合各属性的优点,但是具体Combine的过程论文一笔带过,含糊其辞。
由于工作量大,出力不讨好,Hierarchy和Attribute Mining+Association的研究进展缓慢,但是这为可能的改进方向提出了一些问题,有待后人来回答。
网友评论