美文网首页
目前VQA的四大方式

目前VQA的四大方式

作者: 殁月 | 来源:发表于2021-01-22 11:17 被阅读0次
    1. Joint embedding approaches,只是直接从源头编码的角度开始融合信息,这也很自然的联想到最简单粗暴的方式就是把文本和图像的embedding直接拼接(ps:粗暴拼接这种方式很work),Billiner Fusion 最常用了,Fusion届的LR
    2. Attention mechanisms,很多VQA的问题都在attention上做文章,attention本身也是一个提取信息的动作,自从attention is all you need后,大家对attention的应用可以说是花式了,本文后面专门介绍CVPR2019的几篇
    3. Compositional Models,这种方式解决问题的思路是分模块而治之,各模块分别处理不同的功能,然后通过模块的组装推理得出结果

    比如在[1]中,上图,问题是What color is his tie?先选择出 attend 和classify 模块,并且根据推理方式组装模块,最后得出结论

    4.Models using external knowledge base

    利用外部知识库来做VQA和很好理解,QA都喜欢用知识库,这种知识储备一劳永逸,例如,为了回答“图上有多少只哺乳动物”这样的问题,模型必须得知道“哺乳动物”的定义,而你想从图像上去学习到哺乳动物是有难度的,因此把知识库接进来检索是种解决方式,例如在[2]

    参考

    1. ^Neural Module Networks
    2. ^Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

    相关文章

      网友评论

          本文标题:目前VQA的四大方式

          本文链接:https://www.haomeiwen.com/subject/pijszktx.html