美文网首页
2020多模态论文“Consensus-Aware Visual

2020多模态论文“Consensus-Aware Visual

作者: 掉了西红柿皮_Kee | 来源:发表于2022-09-25 12:14 被阅读0次

Wang H, Zhang Y, Ji Z, et al. Consensus-aware visual-semantic embedding for image-text matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 18-34.

摘要导读

文本和图片的匹配在语言和视觉领域起着重要的桥梁的作用。现有的大多数方法只依靠图像-文本实例对来学习它们的表征,从而利用它们的匹配关系并进行相应的排列。这类方法只利用实例配对数据中包含的上层关联,而不考虑任何外部常识性知识,这可能会阻碍模型推理图像和文本之间更高层次关系的能力。本文提出了一个共识意识的视觉语义嵌入(CVSE)模型,将共识信息,即两种模式之间共享的常识性知识,纳入图像-文本匹配。具体来说,共识信息是通过计算(图像标题)语料库中的语义内容之间的共现相关性来引入的,并部署所构建的概念相关图来产生共识意识的概念(CAC)表示。之后,CVSE根据所学到的共识以及两种模式的实例级表征,学习图像和文本之间的关联和对齐。

其实这里比较关键的点有:
1、所谓的共识表示是如何建立的,它所依赖的语料是哪些,通过什么样的方式学习的,这么做可以达到哪些目的;
2、共识表示和实例表示是如何融合的,什么样的比重是最优的;
3、由图像标题得来的共识,在image和text的融合上有什么侧重点,会不会导致对image的表征学习较为欠缺,而对text的表征学习过剩。

搬运一个大佬的论文阅读笔记,我这里就不赘述了。

相关文章

网友评论

      本文标题:2020多模态论文“Consensus-Aware Visual

      本文链接:https://www.haomeiwen.com/subject/xsczortx.html