《Neural Baby Talk》 CVPR2018

作者: longturn | 来源:发表于2018-04-01 17:40 被阅读0次

Neural Baby Talk, cvpr2018

与《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》cvpr2017 是同一个作者，本文也可看做是这个工作的扩展。

Motivation:

在深度学习时代，典型的image caption模型采样LSTM，问题是过分依赖language model, 使得caption经常与图像内容关联不够；而在深度学习之前，典型做法是更依赖图像内容，而对language model关注不过，例如采用一系列视觉检测器检测图像内容，然后基于模板或者其他方式生成caption。作者认为应该减少对语言模型的依赖，更多地结合图像内容。
基本想法：采用物体检测器检测图像中的物体(visual words)，然后在每个word的生成时刻，自主决定选取text word（数据集中的词汇）还是 visual word（检测到的词汇）。

Method

采用bottom up attention (即region feature)，学习两组word probability，一个是text words, 一个是visual words的。
text words概率与bottom up attention模型基本一致；visual words概率采用当前hidden state与region features的相关性学习region 权重（即attention），每个region对应一个word。
同时，借鉴了Adaptive attention的做法，学习了一个sentiment gate(哨兵)，决定当前时刻应该采用text 还是 visual word(权重)，用其对visual words的概率进行缩放。最终选取某个单词是取所有words概率的max.
如果选取了visual word, 那么还需要对词语进行变换使其适合当前文本上下文，比如单复数、形态等。作者考虑两种变换：单复数（如dog跟dogs）、类别的fine-grained标签（如dog可以细分为puppy等）。两种变换分别学习两个分类器实现，单复数用二分类器，fine-grained用多分类做。