美文网首页
[论文解读]Visual bert

[论文解读]Visual bert

作者: 数据小新手 | 来源:发表于2021-03-21 20:53 被阅读0次

    visual bert

    VisualBert 融合了bert 的目标检测系统如fast-rcnn,并且可以用于一系列的视觉和语言任务。

    作者提出了两种训练视觉语言模型的预训练任务:

    1. 一部分文本被mask掉,根据剩余的文本和图像信息来预测被mask掉的信息。

    2. 模型来预测提供的文本是否和图片匹配。作者发现这种在图片标注数据上的预训练对于visualBert 学习文本和图像的表征非常重要。

    visualBert的核心思想是使用self-attention 机制来挖掘文本和输入图片中图像区域之间的关系。

    Input embedding:

    visual embedding F来表示一个图片的信息。 F由三部分组成。

    1. 由CNN提取的视觉特征表征。

    2. segment embedding 来区分视觉embedding和图像embedding.

    3. positional embedding.原文中没有介绍具体是如何实现的

    image-20210321205142815.png

    Training tasks:

    1. masked language modeling with image.一些文本的输入被MASK,需要用其他文本预测,图像区域没有被MASK。

    2. sentence-image prediction。 1个文本的segment包含两个captions。一个是描述这个图片的,另一个是50%概率是一个描述该图片的caption,50%是随机写的描述。模型用于区分这两种情况。

    Task-Specific Pre-Training: 在fine-tuning 下游任务之前, 使用图像目标训练masked language modeling有效。这样会是模型更好的适应新的目标。

    实验方案:

    作者尝试了几种方案

    1. 原始的visualbert 方案

    2. 使用在输入层融合图像和文本信息,或者是在后面的层融合图片文本信息。

    3. 是否进行在COCO数据集上进行预训练任务。

    作者试下来还是VISUAL BERT效果最好。

    作者的一些研究性分析:

    1). Task-agnostic Pre-training: 作者研究了只在文本上进行预训练和在图像和文本上都进行预训练,发现在图像上进行预训练很重要

    2). Early Fusion: 在早起的FUSION 十分重要

    3). BERT Initialization:虽然使用语言模型的BERT初始化十分重要,但是没有之前想象的那么重要。

    4). The sentence-image prediction objective 作者尝试去掉这个任务,发现影响相比于其他的两个任务不是特别大。

    ATTENTION 权重分析:

    作者分析了attention中的weight ,有一些有意思的结果,图片和视频中 的部分可以相互align。这种方法可以评估模型学到的东西有没有意义。

    reference:

    VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

    相关文章

      网友评论

          本文标题:[论文解读]Visual bert

          本文链接:https://www.haomeiwen.com/subject/gumocltx.html