目前VQA的四大方式

目前VQA的四大方式

作者: 殁月 | 来源:发表于2021-01-22 11:17 被阅读0次

Joint embedding approaches，只是直接从源头编码的角度开始融合信息，这也很自然的联想到最简单粗暴的方式就是把文本和图像的embedding直接拼接（ps:粗暴拼接这种方式很work），Billiner Fusion 最常用了，Fusion届的LR
Attention mechanisms，很多VQA的问题都在attention上做文章，attention本身也是一个提取信息的动作，自从attention is all you need后，大家对attention的应用可以说是花式了，本文后面专门介绍CVPR2019的几篇
Compositional Models，这种方式解决问题的思路是分模块而治之，各模块分别处理不同的功能，然后通过模块的组装推理得出结果

比如在^[1]中，上图，问题是What color is his tie?先选择出 attend 和classify 模块，并且根据推理方式组装模块，最后得出结论

4.Models using external knowledge base

利用外部知识库来做VQA和很好理解，QA都喜欢用知识库，这种知识储备一劳永逸，例如，为了回答“图上有多少只哺乳动物”这样的问题，模型必须得知道“哺乳动物”的定义，而你想从图像上去学习到哺乳动物是有难度的，因此把知识库接进来检索是种解决方式，例如在[2]

参考

^Neural Module Networks
^Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

相关文章

网友评论

本文标题：目前VQA的四大方式

本文链接：https://www.haomeiwen.com/subject/pijszktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|目前VQA的四大方式|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！