Wang H, Zhang Y, Ji Z, et al. Consensus-aware visual-semantic embedding for image-text matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 18-34.
摘要导读
文本和图片的匹配在语言和视觉领域起着重要的桥梁的作用。现有的大多数方法只依靠图像-文本实例对来学习它们的表征,从而利用它们的匹配关系并进行相应的排列。这类方法只利用实例配对数据中包含的上层关联,而不考虑任何外部常识性知识,这可能会阻碍模型推理图像和文本之间更高层次关系的能力。本文提出了一个共识意识的视觉语义嵌入(CVSE)模型,将共识信息,即两种模式之间共享的常识性知识,纳入图像-文本匹配。具体来说,共识信息是通过计算(图像标题)语料库中的语义内容之间的共现相关性来引入的,并部署所构建的概念相关图来产生共识意识的概念(CAC)表示。之后,CVSE根据所学到的共识以及两种模式的实例级表征,学习图像和文本之间的关联和对齐。
其实这里比较关键的点有:
1、所谓的共识表示是如何建立的,它所依赖的语料是哪些,通过什么样的方式学习的,这么做可以达到哪些目的;
2、共识表示和实例表示是如何融合的,什么样的比重是最优的;
3、由图像标题得来的共识,在image和text的融合上有什么侧重点,会不会导致对image的表征学习较为欠缺,而对text的表征学习过剩。
搬运一个大佬的论文阅读笔记,我这里就不赘述了。
网友评论