[论文解读]Visual bert

作者: 数据小新手 | 来源:发表于2021-03-21 20:53 被阅读0次

visual bert

VisualBert 融合了bert 的目标检测系统如fast-rcnn，并且可以用于一系列的视觉和语言任务。

作者提出了两种训练视觉语言模型的预训练任务:

visualBert的核心思想是使用self-attention 机制来挖掘文本和输入图片中图像区域之间的关系。

Input embedding:

visual embedding F来表示一个图片的信息。 F由三部分组成。

image-20210321205142815.png

masked language modeling with image.一些文本的输入被MASK，需要用其他文本预测，图像区域没有被MASK。
sentence-image prediction。 1个文本的segment包含两个captions。一个是描述这个图片的，另一个是50%概率是一个描述该图片的caption，50%是随机写的描述。模型用于区分这两种情况。

Task-Specific Pre-Training: 在fine-tuning 下游任务之前, 使用图像目标训练masked language modeling有效。这样会是模型更好的适应新的目标。

作者尝试了几种方案

作者试下来还是VISUAL BERT效果最好。

作者的一些研究性分析：

1). Task-agnostic Pre-training: 作者研究了只在文本上进行预训练和在图像和文本上都进行预训练，发现在图像上进行预训练很重要

2). Early Fusion: 在早起的FUSION 十分重要

3). BERT Initialization：虽然使用语言模型的BERT初始化十分重要，但是没有之前想象的那么重要。

4). The sentence-image prediction objective 作者尝试去掉这个任务，发现影响相比于其他的两个任务不是特别大。

ATTENTION 权重分析:

作者分析了attention中的weight ，有一些有意思的结果，图片和视频中的部分可以相互align。这种方法可以评估模型学到的东西有没有意义。

reference:

VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

本文标题：[论文解读]Visual bert

本文链接：https://www.haomeiwen.com/subject/gumocltx.html