VQA: Given an image and a question in natural language, it requires reasoning over visual elements of the image and general knowledge to infer the correct answer.
和Textual QA区别
- 图像维度更高,会引入更多的噪声
- 图像没有文化那样的结构化和语法规则
- 文本往往是一个抽象的概念,而图像更加具体,让计算机从图像中理解抽象概念有难度
和Image captioning区别
- VQA需要对图片进行推理,而不是只是将图片进行结构化翻译
- VQA更容易评估,因为答案一般都是短语,而非像caption那样的长文本
Methods for VQA
1. Joint embedding approaches
利用CNNs&RNNs分别去学习图片和句子,然后联合编码,最后进行分类操作,或者生成长度不等的序列。
2. Attention mechanisms
该方法是从image captioning中借鉴而来,相比于对全局进行学习,更加关注特定区域,使得模型更加关注关键图像的部位
3. Compositional models
针对不同的问题用组合模型设计计算方法
3.1 Neural Module Networks
将问题进行语法分析,然后判断需要用的模块
3.2 Dynamic Memory Networks
有四个模块,表征图像的input module、表征问题的question module、作为内存的episodic memory module和产生答案的answer module
4. Knowledge base-enhanced approaches
利用外部数据,获取先验知识,构建知识库
网友评论