visual bert
VisualBert 融合了bert 的目标检测系统如fast-rcnn,并且可以用于一系列的视觉和语言任务。
作者提出了两种训练视觉语言模型的预训练任务:
-
一部分文本被mask掉,根据剩余的文本和图像信息来预测被mask掉的信息。
-
模型来预测提供的文本是否和图片匹配。作者发现这种在图片标注数据上的预训练对于visualBert 学习文本和图像的表征非常重要。
visualBert的核心思想是使用self-attention 机制来挖掘文本和输入图片中图像区域之间的关系。
Input embedding:
visual embedding F来表示一个图片的信息。 F由三部分组成。
-
由CNN提取的视觉特征表征。
-
segment embedding 来区分视觉embedding和图像embedding.
-
positional embedding.原文中没有介绍具体是如何实现的
Training tasks:
-
masked language modeling with image.一些文本的输入被MASK,需要用其他文本预测,图像区域没有被MASK。
-
sentence-image prediction。 1个文本的segment包含两个captions。一个是描述这个图片的,另一个是50%概率是一个描述该图片的caption,50%是随机写的描述。模型用于区分这两种情况。
Task-Specific Pre-Training: 在fine-tuning 下游任务之前, 使用图像目标训练masked language modeling有效。这样会是模型更好的适应新的目标。
实验方案:
作者尝试了几种方案
-
原始的visualbert 方案
-
使用在输入层融合图像和文本信息,或者是在后面的层融合图片文本信息。
-
是否进行在COCO数据集上进行预训练任务。
作者试下来还是VISUAL BERT效果最好。
作者的一些研究性分析:
1). Task-agnostic Pre-training: 作者研究了只在文本上进行预训练和在图像和文本上都进行预训练,发现在图像上进行预训练很重要
2). Early Fusion: 在早起的FUSION 十分重要
3). BERT Initialization:虽然使用语言模型的BERT初始化十分重要,但是没有之前想象的那么重要。
4). The sentence-image prediction objective 作者尝试去掉这个任务,发现影响相比于其他的两个任务不是特别大。
ATTENTION 权重分析:
作者分析了attention中的weight ,有一些有意思的结果,图片和视频中 的部分可以相互align。这种方法可以评估模型学到的东西有没有意义。
reference:
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
网友评论