美文网首页
Visual Question Answering: A Sur

Visual Question Answering: A Sur

作者: yestinl | 来源:发表于2019-04-20 15:04 被阅读0次

    VQA: Given an image and a question in natural language, it requires reasoning over visual elements of the image and general knowledge to infer the correct answer.
    和Textual QA区别

    1. 图像维度更高,会引入更多的噪声
    2. 图像没有文化那样的结构化和语法规则
    3. 文本往往是一个抽象的概念,而图像更加具体,让计算机从图像中理解抽象概念有难度

    和Image captioning区别

    1. VQA需要对图片进行推理,而不是只是将图片进行结构化翻译
    2. VQA更容易评估,因为答案一般都是短语,而非像caption那样的长文本
    Methods for VQA

    1. Joint embedding approaches
    利用CNNs&RNNs分别去学习图片和句子,然后联合编码,最后进行分类操作,或者生成长度不等的序列。

    Joint embedding

    2. Attention mechanisms
    该方法是从image captioning中借鉴而来,相比于对全局进行学习,更加关注特定区域,使得模型更加关注关键图像的部位

    attention mechanisms

    3. Compositional models
    针对不同的问题用组合模型设计计算方法
    3.1 Neural Module Networks

    NMN
    将问题进行语法分析,然后判断需要用的模块

    3.2 Dynamic Memory Networks

    DMN
    有四个模块,表征图像的input module、表征问题的question module、作为内存的episodic memory module和产生答案的answer module

    4. Knowledge base-enhanced approaches
    利用外部数据,获取先验知识,构建知识库

    相关文章

      网友评论

          本文标题:Visual Question Answering: A Sur

          本文链接:https://www.haomeiwen.com/subject/rrchgqtx.html