经典重读：What Helps Where – And Why?

作者: 龙腾Zero | 来源:发表于2018-07-10 16:49 被阅读0次

多模态学习的核心问题之一是如何有效联系视觉与语义信息。在人工智能和深度学习的大潮下，学术界、工业界的研究日新月异。人们被淹没于各种Fancy的网络结构之下，多少有些忽略了意图解决的问题本身，以及研究的Motivation从何而来。其实，许多问题的由来和研究的动机在早些时候的经典论文中已有提及。

今天，我们回顾多模态学习领域的经典论文——What Helps Where – And Why? Semantic Relatedness for Knowledge Transfer. 该论文由马普所Bernt Schiele 研究组发表于2010年的CVPR。论文以零样本学习为例，在AWA数据集上探讨了语义与视觉两个Modality究竟借助怎样的知识库(Knowledge Base)才能更好地实现知识迁移(Knowledge transfer)，并将知识迁移到新任务（本文为Zero-shot Recognition）上。

本文主要讲述的是思想。

知识迁移依靠Attribute(属性)（颜色、形状、大小等）在较抽象的层面上描述物体（类似深度网络中的高层特征）。Attribute描述的是：某物具有某特性。Attribute和类别的关系如下图所示：

图1.类别与属性的关系

与CNN的高层特征不同，Attribute完全是人工定义，人工标注的。它的优点是1.具有较好的表达能力。直接使用Attribute当做图像特征也能取得超过低级特征的分类效果；2.具有明确的物理意义，便于和自然语言相对应。

Attribute也有许多不足，这些不足主要是人工标注导致的：

1.人工选取的Attribute是单词，断章取义，不能很好描述客观世界。
2.人工标注过程是不可靠的。
3.数据集需要进行图像级别的标注，因此人工标注费时费力。
4.对于训练集中未出现的Unseen类别，需要人工做类别级别的标注。

因此，本文关注：怎样减少Attribute的选取和标注这一过程中的人工。具体来说，其工作包括：
1.沿用人工选取的Attribute集合，自动为各类别的Attribute赋值。
2.自动选取Attribute集合，自动为各类别的Attribute赋值。
3.将Seen类别(训练阶段看到的类别)的label当做Attribute，用相似度来度量为各类别的Attribute赋值。
4.直接用Seen类别作为预测依据，不再需要Attribute。（和3的区别见下图）
5.考察在1.2.3.的设定下，使用不同的知识库（WordNet、Wiki、搜索引擎、大规模图像搜索引擎、小规模图像搜索引擎）来为Attribute赋值的性能。

图2，直接预测与基于属性预测的区别

如何自动选取Attribute集合，本文讲得很模糊，在3.2节的Mining attributes第二段中说到：使用了WordNet的整体-局部关系来提取了所有类别中关心的Parts作为属性。
如何为Attribute赋值，取决于使用怎样的知识库，其思想是，借助知识库来寻找Unseen label和Attribute两个单词之间的相似性。其具体内容参照论文本身，此处不再赘述。
其实验对比如下表所述：

不同人工参与度下，不同知识库的ZSL效果对比

虽然实验结果离当下(2018)的State-of-the-art差别甚远，但是，许多state-of-the-art的方法利用了Image-level的Attribute，或利用了Unseen data的信息。这和Zero-shot的思想：减少监督是背道而驰的。本文探讨了一些可能的改进方向，例如：引入/融合不同知识库；直接使用类别作为预测依据跳过了属性，避免了属性当中包含的噪声。其中各有优劣

网友评论

本文标题：经典重读：What Helps Where – And Why?

本文链接：https://www.haomeiwen.com/subject/epmfpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

经典重读：What Helps Where – And Why?

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读