2020多模态论文“Consensus-Aware Visual

作者: 掉了西红柿皮_Kee | 来源:发表于2022-09-25 12:14 被阅读0次

2020多模态论文“Consensus-Aware Visual
A Reinforcement Learning Framewo
CVPR2020_Improved Few-Shot Visua
15-防止错误通知决定
一文带你畅游视觉关系检测(Visual Relationship
Iterative Answer Prediction with
多模态机器学习
Visual Translation Embedding Net
owens相关论文
目标跟踪系统

Wang H, Zhang Y, Ji Z, et al. Consensus-aware visual-semantic embedding for image-text matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 18-34.

摘要导读

文本和图片的匹配在语言和视觉领域起着重要的桥梁的作用。现有的大多数方法只依靠图像-文本实例对来学习它们的表征，从而利用它们的匹配关系并进行相应的排列。这类方法只利用实例配对数据中包含的上层关联，而不考虑任何外部常识性知识，这可能会阻碍模型推理图像和文本之间更高层次关系的能力。本文提出了一个共识意识的视觉语义嵌入（CVSE）模型，将共识信息，即两种模式之间共享的常识性知识，纳入图像-文本匹配。具体来说，共识信息是通过计算（图像标题）语料库中的语义内容之间的共现相关性来引入的，并部署所构建的概念相关图来产生共识意识的概念（CAC）表示。之后，CVSE根据所学到的共识以及两种模式的实例级表征，学习图像和文本之间的关联和对齐。

其实这里比较关键的点有：
1、所谓的共识表示是如何建立的，它所依赖的语料是哪些，通过什么样的方式学习的，这么做可以达到哪些目的；
2、共识表示和实例表示是如何融合的，什么样的比重是最优的；
3、由图像标题得来的共识，在image和text的融合上有什么侧重点，会不会导致对image的表征学习较为欠缺，而对text的表征学习过剩。

搬运一个大佬的论文阅读笔记，我这里就不赘述了。