论文地址:2303.03761.pdf (arxiv.org)
摘要
2D图像理解是计算机视觉中的一个复杂问题,但它是提供人类级别场景理解的关键。它不仅仅是识别图像中的对象,而是试图理解场景。解决这个问题的解决方案构成了一系列任务的基础,包括图像字幕、视觉问答和图像检索。图表提供了一种自然的方法来表示图像中对象之间的关系排列,因此在近年来,图神经网络(GNNs)已成为许多2D图像理解流程的标准组件,特别是在VQA组任务中成为核心架构组件。在本次调查中,我们回顾了这个快速发展的领域,提供了在2D图像理解方法中使用的图表类型分类、使用的GNN模型全面清单以及未来潜在发展的路线图。据我们所知,这是第一份涵盖以GNNs作为其主要架构组件的图像字幕、视觉问答和图像检索技术的综合性调查报告。
引言
近年来,图神经网络(GNNs)的研究迎来了爆炸性增长,每年都有一大批新的架构在顶尖的机器学习会议和期刊上被提出[1],[2],[3],[4],[5],[6]。GNNs在非欧几里得领域的学习能力使它们成为分析具有结构重要性的数据的强大工具,从化学信息学[7]到网络分析[8]。事实上,这些模型也可以应用于传统上与图形无关的问题,例如在LiDAR点云中进行3D对象检测[9]和形状分析[10]。基于GNNs的方法在解决2D图像理解领域的视觉语言任务方面越来越受欢迎,类似于其他领域[11],[12],[13],[14],[15]。虽然这个领域的进展在[16]中得到了讨论,但它是一个广泛的调查。我们的工作专注于视觉语言,因此更广泛地涵盖了这些主题。我们认为2D图像理解是让计算机以与人类相等或更高水平理解二维图像的高层挑战。能够实现这一点的模型应该能够推理图像以描述它(图像字幕)、解释其方面(视觉问答)或找到相似的图像(图像检索)。这些都是人类可以相对容易完成的任务,但对于深度学习模型来说非常困难,并且需要大量的数据。这些任务也属于视觉语言问题的范畴,因为它们要求模型对图像像素和一种语言(通常是英语)都有理解,模型可以用这种语言表达其理解。虽然已经有大量的技术被应用于这些问题[17],[18],[19],[20],[21],[22],[23],但本调查重点讨论基于图形的方法。有多种图表适用于此,但最常用和理解的是语义场景图[24],[25]。该图由表示视觉对象的节点和表示它们之间语义关系的边构成。语义图以及更多的图形类型将在第II-C节中讨论。
除了对2D图像理解任务中使用的图形类型进行分类之外,本文还提供了这些方法所需的必要概述。我们涵盖了三个主要任务,并概述了流行的GNN技术以及未来GNN工作的方向性见解。在本文的讨论部分,我们认为越来越受欢迎的Transformer架构[26]实际上是GNN的一种特殊情况[27]。我们进一步阐述这一观点,认为在一系列任务中,GNN可能会提供更好的归纳偏差,因此不应忽视GNN。我们的主要贡献是:1)对2D图像理解任务中使用的图形类型进行分类;2)对常见2D图像理解任务的GNN方法进行全面调查;3)为社区探索潜在的未来发展提供路线图。本文的其余部分如下所述:第II节给出了所讨论任务及其相应数据集的分类法,以及介绍了整个过程中使用的不同图形类型的概述。第III节概述了常用的GNN体系结构。它还简要提到了GNN的当前和未来研究方向,并标注了适当的调查。本文的主体由第IV、V和VI节组成,分别详细介绍了基于GNN的图像字幕、VQA和图像检索方法。然后,我们用三部分讨论总结了本文,其中第VII-A部分讨论了GNN尽管Transformer架构迅速被采用,仍然具有的优势。这之后是第VII-B部分,将潜在扩散和图像生成的新兴领域与图像字幕联系起来。最后,第VII-C节总结了本文,并提供了未来工作的潜在方向。
背景和定义
本节将概述了解本调查所需的背景。我们首先简要定义了通用的图,然后概述了该领域的分类法。最后,我们概述了各种不同类型的图。
2D 视觉语言任务分类法
本文遵循了[28]、[29]、[30]、[31]的分类法,将它们结合起来以更全面地了解2D视觉语言任务(见图1)。本节将简要概述现有的分类法,并强调本调查所关注的部分。同时,我们还概述了在本文中讨论的各种任务所使用的主要数据集,这些数据集在表格I中进行了总结。虽然每个视觉语言任务都有其独特的数据集,但它们都由Visual Genome [32]统一,这是一个广泛的数据集,为一系列视觉语言任务提供了基础的事实。作为最通用的数据集,它包含33,877个对象类别和68,111个属性类别。在发布时,这是包含图像描述、对象、属性、关系和问题答案对的最大且最密集的数据集。此外,Visual Genome还包含区域图、场景图和问题答案对。因此,它是一个非常广泛的数据集,广泛应用于视觉认知任务,例如场景图生成[40]和VQA [41]。
对于图像字幕,我们遵循[28]的三种主要方法:1)基于检索的字幕,2)基于模板的字幕,和3)基于深度学习的字幕。基于检索的字幕建立在每个图像都存在字幕并需要从现有字幕库中检索出的假设之上。这是早期图像字幕方法[17]的基础,并且不需要深度学习即可产生良好的结果。然而,并非所有图像都可能有适当的字幕。如果字幕是通用的,它们只能描述图像的某些方面,可能会忽略其最重要的特征。相比之下,基于模板的字幕[42]使用预定义的字幕格式,并使用物体检测来填充空白部分。这种方法适用于生成一致的字幕,但可能会导致非自然且明显是由机器生成的字幕。现代图像字幕任务的方法基于深度学习模型。早期的工作专注于使用CNN编码器馈送基于RNN的解码器[43],然而更近期的深度学习方法已经发展出了包括GNNs [25],[44]和Transformers [45],[46]在内的各种技术。在本次调查中,我们专门关注基于深度学习的图像字幕方法,并关注基于图形的方法。深度学习方法通常在包含由五个人生成的字幕陪伴的一组图像的COCO [33]或Flickr30k [34]上进行训练。
VQA的分类通常是通过各个任务使用的数据集的视角来定义的[29],[30]。在这里,我们重点关注以下三个VQA任务:1)标准的VQA任务,即回答关于图像的问题;2)基于事实的VQA(FVQA)任务,即回答需要外部知识才能回答的问题;3)文本-VQA,即回答需要模型阅读场景中的文本并将其与视觉数据相结合的问题。每个不同的VQA任务都有自己专业化的数据集。最初的VQA数据集[35]和随后更新的VQA 2.0 [47]数据集解决了根据图像中的视觉信息回答问题的原始任务。FVQA数据集[36]使用了来自ImageNet [48]和COCO [33]的图像,以及来自DBPedia [49]、ConceptNet [50]和WebChild [51]的事实。使用各种模型从这些图像中提取了三种形式的视觉概念。这些视觉概念包括对象(在图像中识别的物品)、场景(例如房间标签的场景级特征)和动作。问题-答案对由人类注释者生成,他们选择了一个视觉概念和一个相应的事实三元组,用它来生成一个问题。最后,文本-KVQA数据集[39]是通过汇编来自Kaggle电影海报挑战[52]和Google图像搜索结果的图像,其中结合了品牌名称和后缀(如“商店”或“建筑物”)而构建的。然后,将这些图像交给人类注释者,他们删除了不含品牌名称文本的图像。结果是一个包含三个组:书籍、电影和场景的数据集,共有257K张图像,伴随着130万个问题-答案对。每个图像组都从相关来源获得其自己的三元组知识库:WikiData [53]、IMBd和[52]。图像检索涉及多个任务,所有这些任务都在现代方法中使用深度学习。我们遵循Alexander等人的分类法[31],并解决以下子任务:基于文本的图像检索、基于内容的图像检索、基于草图的检索、基于语义的检索和基于注释的检索。用于图像检索的数据集数量庞大,社区尚未像图像字幕使用COCO [33]那样围绕一个单一数据集。这在进行系统之间的准确比较时会带来挑战,因为不同数据集所面临的挑战是不同的,这使得跨数据集的直接比较变得更加复杂。虽然存在特定于图像检索的数据集[54],但也有一些论文[55],[56],[57]使用了图像字幕数据集[33],[34],这表明存在各种各样的数据集用于图像检索。
基本图论概念
无向图。我们定义一个无向图为一个元组集合,即。集合包含个顶点(有时称为节点),它们由集合中的边连接,即如果和由一条边连接,则。对于无向图,我们有。
有向图。有向图是一种图,其中的存在并不意味着的存在。设是的二元邻接矩阵,使得如果,则。然后就可以得到对于有向(无向)图,是不对称的(对称的)。更一般地说,可以是一个实值矩阵,其中的值可以解释为和之间连接的强度。
邻域。节点的邻域是与相连的中的节点的子集。邻居可以直接连接到,即,或者可以通过从到遍历个边间接连接。请注意,某些定义将本身包括在邻域中。
完全图。完全图是一个(有向或无向的)图,在该图中,每个节点与集合中的每个其他节点都有一条边相连。因此,完全图是给定节点数的最大边数的图。 多部分图。
多部分图(也称为部分图)是一种图,其中节点可以分为个不同的集合。对于场景理解任务,这允许使用图表示,其中一个节点集表示对象,另一个节点集表示对象之间的关系。
多模态图。多模态图是一种具有来自不同模态的节点特征的图。这种方法通常在VQA中使用,其中混合了图像和文本模态。多模态图使得视觉特征与词嵌入在图中共存。
2D视觉语言任务中常见的图类型
本节组织了在调查中讨论的所有三个任务中使用的各种图类型。一些图,如语义和空间图,在所有任务中都被使用[25],[41],[56],而其他一些则更具领域特定性,例如知识图[58],[39]。图2显示了来自COCO数据集[33]的样本图像以及可用于描述它的各种类型的图形。本节连同该图形组织,以便将表示单个图像的图形和表示数据集部分的图形分组在一起。
语义图。有时被称为场景图,语义图(如图2c所示)是一种封装场景内视觉对象之间语义关系的图形。在文献中,“语义图”和“场景图”这些术语有时是可以互换使用的,具体取决于论文。但是,在本次调查中,我们使用“语义图”这个术语,因为有很多方法可以将视觉场景描述为图形,而“语义图”标签更精确地描述了图形所代表的内容。语义图有不同的类型。一种方法是定义一个有向图,其中节点表示通过像Faster-RCNN[59]这样的目标检测器提取的视觉对象,而边表示它们之间的语义关系。这是Yao等人[25]的方法,在这种方法中,使用Visual Genome [32]等数据集,模型预测语义关系以形成图中的边。另一方面,语义图可以被看作是多部分图[60],[61],[44],[62](如图2d所示),其中属性节点描述它们连接到的对象节点。他们还通过使用节点而不是边特征来改变关系的表示方式。这产生了一个语义图,其具有三种节点类型:视觉对象,对象属性和对象间关系。这个定义遵循了由Johnson等人[24]定义的“场景图”的定义。最后,还存在另一种形式的语义图,即文本语义图[44],[63](如图2f所示)。与视觉语义图不同,文本语义图不是从图像本身生成的,而是从其标题生成的。具体来说,标题通过斯坦福依存解析器[64]进行解析,这是一种广泛使用的[65],[66]概率句子解析器。给定标题,解析器将返回其语法结构,标识其中的组件,例如名词、动词和形容词,并标记它们之间的关系。然后将其从树形结构修改为图形,遵循[67]中概述的技术。
空间图。Yao等人[25]将空间图(图2g)定义为表示物体之间空间关系的图。由物体探测器检测到的视觉对象形成节点,节点之间的边表示两个对象之间可能发生的11种预定义空间关系之一。其中包括内部(标记为“1”),覆盖(标记为“2”),重叠(标记为“3”)以及基于两个对象的质心之间的角度的八个位置关系(标记为“4”-“11”)。这些图是有方向的,但并不总是完整的,因为有些情况下两个物体之间的空间关系较弱,因此在空间图中没有通过边连接它们。Guo等人[61]定义了一种类似的图形,称为几何图形。它被定义为一个无向图,编码物体之间的相对空间位置,包括重叠和相对距离,这些距离满足一定的阈值。
分层空间图。这些图是在空间图的基础上建立的,但节点之间的关系侧重于图像中检测到的对象之间空间关系的层次结构。Yao等人提出使用树(即每对节点由一条路径连接的图)来定义分层图像表示。首先使用 Faster-RCNN 将图像(I)分成区域,每个区域进一步分成实例分割。这给出了一个三层树形结构,其中是连接边的集合),用于表示图像,如图2e所示。He等人使用分层空间图,其中关系代表“父母”、“孩子”和“邻居”关系,具体取决于边界框的交集与联合的比例。
相似性图。Kan等人提出的相似性图(图2h)是通过计算由Faster-RCNN [59]提取的两个视觉特征的点积来生成的。然后使用这些点积形成邻接矩阵A的值,因为该操作捕捉两个向量之间的相似性,点积越高,两个向量就越接近。Faster-RCNN提取一组n个视觉特征,其中每个特征与一个节点相关联,而两个节点和之间的边的值由给出,其中是非线性函数,是学习的权重矩阵。 [69]的作者建议,以这种方式生成图可以通过数据驱动的方式发现对象之间的关系,而不是依赖于像Visual Genome [32]这样的数据集上训练的模型。
图像图/ K-最近邻图。Dong等人在他们的2021年图像字幕工作中,通过对图像进行Faster-RCNN [59]的对象向量求平均值,将图像转换为潜在的特征空间。然后,在欧几里得距离的K个最接近的训练数据或搜索空间中,这些图像被转换成一个完整的无向图,如图2i所示。这与Liu等人 [71]使用的K最近邻图的方法类似。
主题图。Kan等人提出的主题图是一个无向图,其中节点表示GPU-DMM [72]提取的主题。主题是表示整个标题集中共享知识的潜在特征。将它们建模成一个图(如图2j所示),通过计算两个节点的点积得到边,可以对标题中表示的知识进行建模。
区域相邻图。在[73]中定义的区域相邻图使用超像素分割。超像素形成图的节点,并添加边以连接相邻区域对。然后,将边加权以表示两个相邻区域的兼容性。
知识图。知识图或事实图是信息的基于图的表示形式。虽然这些图的结构没有达成共识[74],但它们通常采用三元组的形式。它们在各种任务中被用于提供进行“推理”所需的信息。因此,知识图使得FVQA任务成为可能。
图神经网络综述
在过去的几年中,文献中提出了大量的图神经网络架构。Wu等人[75]提出了一个包含四个不同组的分类法:循环GNN,卷积GNN,自编码器GNN和时空GNN。本文讨论的应用主要利用卷积GNN,其他架构的综合概述可参考[75]。GNN,特别是传统的图卷积网络,具有深厚的关系归纳偏差[27]。它们基于同质性的假设,即相连的节点相似。
图卷积网络(GCNs) 一种常见的卷积GNN架构是由Gilmer等人提出的消息传递神经网络(MPNNs)。虽然这种架构已经被证明具有局限性[76],但它构成了GNN的一个很好的抽象。Gilmer等人将MPNNs描述为由消息函数、更新函数和读出函数组成。这些函数将根据网络的应用而变化,但是是可学习的、可微分的和置换不变的。消息和更新函数将运行T个时间步,传递图中连接节点之间的消息。这些用于更新节点的隐藏特征向量,然后用于更新节点特征向量,进而在读取函数中使用。
消息定义如下:
其中,下一个时间步长的节点v的消息由其当前隐藏状态与其邻居以及任何边特征在多层感知器(MLP)Mt(·)中组合而成。由于消息是所有连接节点的聚合,因此求和是对连接到节点u的节点u ∈ N(v)即v的邻域进行的。然后,将这些消息用于通过组合节点当前状态和消息在MLP Ut中更新隐藏向量。
一旦消息传递阶段运行了T个时间步长,就会进行读取阶段,使用读取函数R(·)。此阶段利用考虑图上节点的更新特征向量的MLP进行预测,定义为:
为了使GCN架构适用于大型图形,GraphSAGE [77]架构改变了消息函数。不再从节点的整个邻域中获取消息,而是使用随机样本。这减少了需要处理的消息数量,从而导致该架构在大型图形上工作良好。
门控图神经网络 门控图神经网络(GGNN)[78]的核心思想是将消息传递架构(公式2)中的更新函数替换为门控循环单元(GRU)[79]。GRU是一种循环神经网络,具有更新和重置门,控制哪些数据可以流经网络(并被保留),哪些数据不能(因此被遗忘)。
GGNN还使用可学习的权重矩阵替换公式1中的消息函数。使用GRU和反向传播通过时间使得GGNN能够在序列数据上操作。但是,由于架构的循环性质,对于大型图形运行GGNN可能会变得不可行。
Graph Attention Networks(GATs) 源自于流行的Transformer架构中的多头注意力机制[26]。GATs将常见的GCN扩展为包括这种注意力属性。使用一个注意力函数,通常是由一个MLP模型建模,这个架构计算两个节点之间的注意权重。这个过程使用K个注意头并行重复K次。然后对注意力得分进行平均以得到最终的权重。
自注意力是由函数 计算的(通常是一个 MLP),用于关注一个节点及其邻居。一旦图中每个节点对的注意力都被计算出来,得分就通过 softmax 函数传递,以给出规范化的注意力系数。然后,通过在 K 个不同的注意头上重复此过程,并使用不同的初始化权重,将其扩展到多头注意力。最终节点表示通过将 K 个注意头连接或平均(表示为 ‖)在一起实现。
图形内存网络 近年来,出现了图形内存网络的发展,这些网络可以概念化地认为是具有内部和外部记忆的模型。当有多个图形重叠相同的空间信息时,例如在[81]中,使用某种形式的外部存储器可以允许对节点更新进行聚合,并且图形经历了消息传递。这本质上允许以超越更简单的汇集操作的方式组合来自多个图形的特征。在Khademi [81]的情况下,通过相同的图像构建了两个图形,但可能具有不同的节点。这些图形使用GGNN进行更新。使用具有注意机制的神经网络构建外部空间存储器以汇总图形更新过程中的信息。空间记忆的最终状态用于执行最终任务。
现代图形神经网络架构 近年来,消息传递GNN的限制变得越来越明显,从它们在网络深度增加时过度平滑输入特征的倾向[82],到它们在异质性设置[83]中的不令人满意的性能,即,当输入图形中相邻的节点不相似时。此外,基于消息传递机制的GNN的表达能力被证明受到著名的WeisfeilerLehman同构测试的限制[76],这意味着它们生成不同结构的输入图形的不同表示能力存在固有的限制。受到想要克服这些问题的愿望的推动,研究人员现在开始探索远离标准消息传递体系结构的替代模型。在这方面的努力包括许多其他内容,例如高阶消息传递架构[84],单元复合网络[85],基于扩散过程的网络[86],[2],[83]。据我们所知,尚未探索将这些体系结构应用于本文中讨论的2D图像理解任务。因此,我们将读者引用参考文献中的文章,以获得有关各自体系结构的详细信息。
图像字幕
图像字幕生成是一项具有挑战性的任务,旨在产生自然语言描述图像的文本。除了是一个有趣的技术挑战外,它还提供了开发针对严重视力受损(正式称为“盲”)和视力受损用户(正式称为“视力受损”)的辅助技术的机会。此外,它在从图像索引到监视等问题上都有应用。图像字幕生成技术有三种形式:1)基于检索的字幕生成,其中从一组现有字幕中检索出一个字幕;2)基于模板的字幕生成,其中使用从图像中提取的信息填充预先存在的模板;3)基于深度学习的图像字幕生成,其中神经网络的任务是从输入图像生成字幕。我们提议细化此分类法,以区分基于图神经网络的方法和传统的基于深度学习的图像字幕生成。下面的章节详细介绍了最近几年中一些基于图神经网络的图像字幕生成方法。图3说明了通用的基于图神经网络的图像字幕生成架构的结构。
GNN-based方法的图像字幕生成都采用了深度学习图像字幕生成技术中常用的传统编码器-解码器方法。首先对图像进行物体检测,其输出被用于创建编码。这些编码然后经过解码,传统上使用长短期记忆网络(LSTM),生成字幕。通过将GNN结构加入,研究人员能够通过将空间和语义信息融入嵌入中来增强图像的编码表示。随着图像字幕任务的发展,用于评估提出架构性能的评估指标也在不断发展。最初,图像字幕主要依赖于机器翻译评估技术,如BLEU [88]、ROUGE [89]和METEOR [90],因为没有专门的图像字幕评估指标。然而,随着CIDEr [91]和SPICE [67]的引入,情况发生了改变。性能指标详见表II。第一个使用GNN来改进图像字幕的架构是由Yao等人[25]提出的。在他们的工作中,他们建议使用GCN来改善图像中物体的特征嵌入。首先,他们将更快的RCNN物体检测器 [59]应用于图像,以提取表示物体的特征向量。这些特征向量然后用于创建两个图:一个双向空间图编码对象之间的空间关系,一个有向语义图编码对象之间的语义关系。然后在两个图上应用GCN,增强图形的特征向量经过均值池化。最后由LSTM解码生成字幕。由于整个图被用于生成字幕,可能导致稠密图中包含冗余或低价值信息的情况出现。
Zhong等人[60]专注于语义场景图,并解决了包含大量检测对象的场景中应包括哪些节点和边缘的问题。由于语义场景图可以变得相对较大,这对于包含大量检测对象的场景是具有挑战性的。该问题通过将语义图分解成覆盖图像各个部分的各种子图来解决。然后使用训练的函数对它们进行打分,以确定子图与参考语句的相似度。这使得可以从主场景图中选择生成有用标题的子图。起始的语义图是由MotifNet[92](常见的现成语义图生成器)生成的。Zhong等人[60]使用GCN来汇总所提出子图的邻域信息。与Yao等人不同,[60]仅使用语义图。他们关注语言和语义图之间的联系,而不使用空间信息。Song等人[93]的研究也利用了语义图,并研究了如何利用隐式和显式特征生成准确和高质量的图像标题。作者将隐式特征定义为表示对象之间全局交互的特征,将显式特征定义为在语义图上定义的特征。对于后者,[93]仅使用单个语义图,但不像其他作品[60]中那样直接通过MotifNet[92]预测图。它的构建始于空间图。在目标检测之后,在对象之间生成一个全连接有向图(其中节点由对象特征向量表示)。然后在两个步骤中删除该图的边缘。首先,删除在重叠区域(以交集/联合度量)为零且l2距离小于任何对象的边界框的最长边的对象之间的边缘。其余的边缘用于确定哪些对象对的关系被MotifNet[92]检测到。保留概率足够高的关系,而其他关系则被删除。这会产生一个语义图,间接包含了空间信息,超越了[60]的语义图。然后,GGNN处理最终的图,其输出是显式特征的表示。隐式特征由Transformer编码器[26]生成。整个图像以及检测到的对象边界框中的区域都被编码。然后将这些特征与显式特征一起作为输入,输入到LSTM语言解码器中,以生成最终的标题。这项工作展示了在GNN与Transformer相结合的情况下,利用它们不同的归纳偏置来最佳地建模不同的交互作用是可能取得成功的(见表III)。然而,隐式和显式关系仍局限于单个图像。进一步的工作可以考虑在整个数据集中某些关系的频率。
Guo等人[61]与Yao等人[25]的工作非常相似,利用了包含语义和空间图的双重图结构。然而,他们观察到图像可以由一组视觉语义单元(VSU)向量表示,这些向量表示一个对象、其属性和其关系。这些VSU被组合成一个语义图,将关系表示为节点而不是边特征,并添加连接到对象的属性节点,因此使其成为多部分图。这样做使得图形更接近于生成的标题,因为对象映射到名词,关系映射到动词和介词,最后属性映射到形容词。作者认为,这种方法使模型能够显式地学习关系并直接对其进行建模。正如[61]所说,图像的场景图与图像标题有密切的映射关系。表示对象的节点直接映射到名词,表示关系的边特征(在[25]的情况下)或节点(在[61]的情况下)清晰地映射到介词,表示属性的节点映射到形容词。编码器生成的图结构与解码器输出的最终句子之间的这种强关系进一步支持许多图像字幕系统使用的图像-图形-句子体系结构的使用。
Zhou等人 [62] 在Faster-RCNN [59]图像特征提取器旁边使用LSTM,并添加了视觉自注意机制。作者们采用了一个多部分的语义场景图,遵循了 [24],[61] 的风格。具体而言,他们建议使用三个GCN来为每个对象、属性和关系节点创建上下文感知特征向量。生成的上下文感知节点通过与自我注意力图进行融合,使模型能够控制字幕的粒度。最后,作者测试了两种基于LSTM的语言生成器的训练方法,第一种是传统的监督方法,使用交叉熵损失,第二种是基于强化学习的方法,使用CIDEr [91]作为奖励函数。通过在架构中使用上下文依赖的GCN,以特别考虑对象、属性和关系节点,SASG能够在与类似模型的竞争中取得具有竞争力的结果,如表III所示。
《场景图自动编码器》是另一篇利用多部分语义图的论文。在这篇论文中,杨等人[44]将标题转换为多部分文本语义图,使用了与SPICE度量[67]类似的过程(在表II中有详细描述)。图中的节点被转换为单词嵌入,然后通过GCN转换为特征嵌入,每种节点类型都有自己独立的GCN和参数。这些特征嵌入与字典结合起来,以便在生成句子之前重新编码。通过反向传播来自句子再生的交叉熵损失,更新字典权重。通过包含字典,作者能够从标题中学习归纳偏差。这使生成的字幕能够从“man on motorcycle”变为“man riding motorcycle”。在给定图像的情况下,SGAE使用Faster-RCNN [59]和MotifNet [92]生成一个多部分视觉语义图,类似于[24],[61]。这些视觉特征通过多模式GCN与单词嵌入结合起来,然后使用先前学习的字典进行重新编码。这些特征然后用于生成最终的句子。
Wang等人 [94] 没有使用多个图,而是使用一个完全连接的空间图和一个注意力机制来学习不同区域之间的关系。该图由代表图像内区域空间信息的节点组成。形成图后,通过GGNN [78] 学习与边缘相关的权重。一旦学习完毕,这些边缘权重对应于两个节点之间存在关系的概率。姚等人 [68] 的工作是基于他们的GCNLSTM [25] 的,提出了一种使用新型层次解析(HIP)架构的图像编码器。与大多数现代图像字幕论文 [25],[60],[70] 中传统的场景图结构不同,姚等人 [68] 采用了使用树形结构的新方法(在第 II-C 节中讨论),利用了图像中对象的层次结构。与他们以前的工作专注于语义和空间关系不同,这项工作涉及图像内部的分层结构。这种分层关系可以视为语义和空间信息的结合 - 因此合并了先前使用的两个图。代表树上顶点的特征向量通过使用TreeLSTM [95] 得到改善。由于树是图的一种特殊情况,因此作者还展示了他们先前的工作GCN-LSTM [25]可用于在解码之前使用树来创建增强的嵌入。他们证明了包含层次传递可以提高所有基准测试的分数,与不使用分层关系的GCN-LSTM [25]相比。
Wang等人 [94] 没有使用多个图,而是使用一个完全连接的空间图和一个注意力机制来学习不同区域之间的关系。该图由代表图像内区域空间信息的节点组成。形成图后,通过GGNN [78] 学习与边缘相关的权重。一旦学习完毕,这些边缘权重对应于两个节点之间存在关系的概率。姚等人 [68] 的工作是基于他们的GCNLSTM [25] 的,提出了一种使用新型层次解析(HIP)架构的图像编码器。与大多数现代图像字幕论文 [25],[60],[70] 中传统的场景图结构不同,姚等人 [68] 采用了使用树形结构的新方法(在第 II-C 节中讨论),利用了图像中对象的层次结构。与他们以前的工作专注于语义和空间关系不同,这项工作涉及图像内部的分层结构。这种分层关系可以视为语义和空间信息的结合 - 因此合并了先前使用的两个图。代表树上顶点的特征向量通过使用TreeLSTM [95] 得到改善。由于树是图的一种特殊情况,因此作者还展示了他们先前的工作GCN-LSTM [25]可用于在解码之前使用树来创建增强的嵌入。他们证明了包含层次传递可以提高所有基准测试的分数,与不使用分层关系的GCN-LSTM [25]相比。
像 [46] 一样,Cornia 等人提出的 M2 网格存储 Transformer 也使用了越来越流行的 Transformer 架构 [26]。与其他一些论文 [25]、[68]、[44]、[46] 不同的是,它使用一组自注意力层对所有图像区域进行编码,而不是利用一些预定义的图像特征结构(如空间图、语义图等)。Transformer 中的标准键和值被编辑以包括可学习的持久性记忆向量的连接。这使得架构能够编码先验知识,例如“鸡蛋”和“吐司”组成了“早餐”的概念。在解码器输出的解码时,也使用一组自注意层。每个解码器层通过门控交叉注意机制与每个编码器层相连,形成了论文中的“meshed”概念。解码器块的输出用于生成最终的输出字幕。
类似于 [46],[69] 的作者提出使用一种新颖的相似性(在论文中称为语义)和主题图。该图是建立在点积相似度的基础上的,不需要像 MotifNet [92] 这样的图提取模型。相反,从 Faster-RCNN 对象检测器 [59] 中提取了一组顶点 作为 ResNet 特征。然后使用 V 中特征向量之间的点积来填充邻接矩阵中的边,其中 。一旦构建完两个图,就会对两个图都应用 GCN 来丰富节点的局部上下文。然后,应用图自注意机制以确保节点不仅仅考虑其直接邻居。改进后的图然后通过 LSTM 进行解码以生成字幕。
Dong等人[70]继承了[25]的思路,使用空间图来展示输入图像中检测到的物体之间的有向关系。局部上,通过CNN提取物体特征,将每个顶点关联到一个向量。该过程对数据集中的每个图像都进行了处理。除了这个图之外,作者还引入了一个图像级别的图。具体来说,每个图像由一个特征向量表示,该向量是与其相关联的一组物体特征向量的平均值。相应图像的图形由K个距离输入图像最近的图像组成,这些图像形成了一个完全连接的无向图。局部空间图和更全局的图像级别图都通过GCN进行处理,以创建更丰富的嵌入,用于生成字幕。这种方法表现非常出色,Dual-GCN在BLEU、METEOR和ROGUE指标上优于可比较的模型(见表III)。
视觉问答
VQA是一项具有挑战性的任务,需要设计和实现模型以回答给定图像的自然语言问题。这些答案可以从简单的是/否回答到更自然、更长的回答。问题的复杂程度也各不相同。随着该领域的发展,出现了更具体的VQA任务。第一个出现的是FVQA,有时也称为知识视觉问答(KVQA),需要外部知识源来回答问题。另一个出现的任务是文本VQA,在这种情况下,模型必须理解场景中的文本才能生成答案。所有三个任务都有自己的数据集[35],[32],[38],[36],[39],并有活跃的社区开发解决方案[35],[65],[81]。
VQA
VQA最初提出于[35],已经从简单的“是”或“否”答案发展到更丰富的自然语言答案。常见的方法是利用VQA的多模态特征,同时利用输入图像的视觉特征和问题的文本特征[65],[81],[66]。
Teney等人的研究 [65] 是在VQA中最早使用GNN的工作之一。他们的模型以视觉场景图为输入,以及一个问题。然后使用斯坦福依赖解析器 [64] 将问题解析成文本场景图。这些场景图独立地使用GGNN [78] 进行处理,该模型已被修改以包含注意机制。然后,使用反映场景图中两个节点彼此相关性的注意机制,将原始特征向量组合在一起。Khademi [81]采用了多模态方法来处理VQA问题,他使用密集区域字幕与提取的视觉特征一起使用。给定一个查询和输入图像,模型将使用Faster-RCNN对象检测器提取视觉区域,并使用ResNet生成一组特征,并将边界框信息编码到这些特征中。还使用现成的密集区域字幕模型创建一组字幕和关联的边界框。使用GRU编码字幕和边界框信息。每组特征都被转换成图形(视觉和文本),在特征之间存在出站和入站边,如果标准化边界框中心之间的欧几里得距离小于γ = 0.5,则存在边。两个图形都通过GGNN进行处理,更新后的特征被用于更新外部空间存储单元,从而使网络成为图形存储网络(在第III-D节中描述)。在传播节点特征之后,外部空间记忆网络的最终状态被转换为一个完整的图形,其中每个位置都是一个节点。这个最终图形由GGNN处理,生成最终答案。该论文中提出的多模态方法在基准测试中表现出极高的效果,提出的MN-GMN体系结构 [81] 在与可比较的模型的比较中表现出色(见表IV)。
MORN [66]是另一项旨在捕捉问题和图像之间复杂多模态关系的工作。和许多最近的深度学习工作一样,它采用了Transformer [26]架构。模型由三个主要组件构成,首先创建一个图形化的视觉图像,从检测到的物体的完全连接图开始,使用GCN来汇集视觉特征。模型的第二部分从输入问题中创建一个文本场景图。最后,模型的第三个组件是一个关系多模态Transformer,用于对齐表示。 Sharma等人 [96]也采用了视觉语言多模态方法,但是放弃了使用文本语义图,而是选择使用单词嵌入。作者利用了一种新颖的基于GGNN的架构,该架构处理代表视觉特征的节点的无向完全图。节点被赋予两个节点之间存在关系的概率权重。与其他VQA工作 [81]一样,问题被限制在14个单词以内,每个单词都被转换为GloVe嵌入 [97]。少于14个单词的问题被用零向量进行填充。然后使用GRU应用于单词嵌入来生成问题嵌入。基于LSTM的注意机制同时考虑问题向量和构成场景图节点的视觉表示。这个模块在探索新的视觉特征时考虑了先前关注的区域。最后,使用基于LSTM的语言生成器来生成最终答案。 Zhang等人 [41]放弃了使用文本场景图,而是利用单词向量将有关图像的信息嵌入语义图中。使用GNN,他们能够创建表示节点、边缘和表示全局状态的图像特征向量的丰富特征向量。他们通过对单词向量进行平均处理,将问题包含在图像特征中,从而使GNN能够对图像进行推理。虽然[96]和[41]都取得了良好的结果,但是仅使用单词或句子级别的嵌入,而不使用文本场景图,它们未能在文本领域建模关系。这就去除了模型仅在文本领域推理的能力。
Li等人[98]和Nuthalapati等人[99]采用了不同于传统多模态方法的视觉信息处理方式。Li等人[98]受[25]启发,使用语义和空间图来表示图像。除了这些显式的图外,他们还引入了一种隐式图,即在检测到的物体之间建立的全连接图,由GAT设置边权。然后,使用多模态融合将关系感知视觉特征与问题向量组合。融合输出随后通过MLP预测答案。Nuthalapati等人[99]采用了双场景图方法,使用视觉和语义图。这些图被合并成一个单独的图嵌入,使用一种新颖的GAT架构[80],该架构能够关注边缘和节点。图形被丰富了在问题中出现但在图中不存在的负面实体。然后进行修剪,以删除距离问题中提到的特征K跳之外的节点和边缘。最后使用解码器来回答输入的问题。
基于知识/事实的 VQA
基于知识或事实的VQA是利用知识图谱(例如WikiData [53])中的外部知识来回答关于图像的问题的挑战性任务。这个任务的主要挑战是创建一个能够利用三种媒介(图像、问题和事实)来生成适当答案的模型。MUCKO [100]的架构图如图4所示(获得了重复使用的许可),作为处理FVQA的模型的代表性例子。在[101]中,作者提出了一种基于GCN的FVQA架构。除了问题和答案集之外,还包括事实知识库。每个事实由图像中基于视觉概念的一个,一个属性或短语和连接两者的关系组成。关系以13种不同的预定义方式存在于概念和属性之间。他们的工作首先通过使用问题和事实中的单词的GloVe嵌入[97]将搜索空间缩小到最有可能包含正确答案的100个事实,然后将其进一步缩小为最相关的事实。这些最相关的事实被转化为图形,其中中的所有视觉概念和属性形成节点。如果两个节点由frel中的事实相关,则连一条边。然后使用GCN在图形上进行“推理”,以预测最终答案。通过使用消息传递架构,作者能够更新节点的特征表示,然后将其馈入MLP,预测对应于实体是否包含答案的二进制标签。
Zhu等人[100]采用多模态图的方法来表示图像,其中包括视觉、语义和知识图。在构建图之后,应用GCN到每个模态以创建更丰富的特征嵌入。这些嵌入然后以跨模态的方式进行处理。Visual-Fact聚合和Semantic-Fact聚合操作产生互补的信息,然后与FactFact卷积层一起使用。这个最后一层考虑到所有三种模态,并产生考虑全局上下文的答案。作者在[58]中继续了他们的工作,将跨模态机制更改为新颖的GRUC(基于图的读取、更新和控制)机制。GRUC以并行管道运作。一个管道从知识图的概念开始,从视觉图中反复合并知识。另一个从同样的知识图概念开始,但合并语义知识。在经过反复操作后,两个管道的输出与问题和原始事实节点一起融合。这个融合特征然后用于预测最终的答案。跨模态注意机制的改变使得与MUCKO[100]相比,在F-VQA基准测试中获得了显着的改进。
Liu et al. [102]提出了一种多模态方法,但只使用了语义和知识模态。他们基于认知科学中的双过程理论提出了一个基于两个系统的FVQA解决方案。他们的方法利用BERT编码器表示输入问题和基于Faster-RCNN [59]的特征提取器表示图像特征。第一个系统基于Transformer架构[26],将这两个表示连接成一个多模态表示。第二个系统随后使用SPICE将稠密区域标题转换为文本场景图(Textual Scene Graph),并使用问题输入生成知识图。然后,使用消息传递GNN来确定重要节点,并使用注意力加权在它们之间聚合信息。然后,通过将整个语义图形与具有关联关系的节点组合成联合表示,学习每个知识图节点的联合表示。这个联合表示然后用于预测最终答案。与多模态方法不同,SGEITL [104]使用图像的语义图,然后遵循Yang等人的方法[40],向图中引入跳过边,基本上使它成为一个完整图。然后,这个图经过一个多跳图变换器,该变换器基于它们之间的距离屏蔽节点之间的注意力,确保只有附近的节点被关注。通过他们的工作,他们证明结构信息在解决复杂的VQA任务时是有用的。
在他们的TRiG模型中,高等等人 [105] 倡导采取一种替代的方法来解决FVQA问题,而不是在某种多模态空间中生成答案,他们建议使用文本空间。他们认为这可以防止进一步与外部知识融合,而且由于大多数数据都是以文本形式存在的,因此在该领域中工作是有意义的。因此,TRiG具有三个组件。它首先使用现成的图像字幕工具将图像转换为字幕。然后,该模型从维基百科文章的知识库中找到前K个相关事实,然后使用T5支撑的Transformer [106] 将<问题、视觉背景、知识>三元组融合和解码成答案。
文本VQA
TextVQA是VQA的一个子任务,其中答案需要模型能够读取出现在图像中的文本。通常这包括从建筑物上读取品牌名称或书籍封面上的标题等任务。这些信息可以与外部知识库相结合,使模型能够通过读取商店名称并在知识库中搜索来回答问题,例如“这家商店是美国品牌吗?” [107]。高等人专注于图像中的文本及其如何更好地利用以提高VQA的准确性。他们使用了一个由完全连接的视觉、语义和数字子图组成的新型多模态图。每个子图表示在图像中找到的唯一模态:视觉实体(由图像特征提取器表示)、发现的文本的语义含义(最初由OCR发现),以及数字值及其语义含义。该论文提出了一种模型,使用相关性评分跨模态聚合信息。一旦三个模态被聚合,便会部署一种注意力机制来帮助预测最终答案。专注于不同模态证明是一种有用的方法,该模型在基准测试中表现优异(见表VI)。
另一项利用多模态图的工作是梁等人的研究 [108]。他们的工作使用图像特征和场景文本特征(由OCR提取)生成了一个类似于[25]的空间关系图。图经过多头注意力处理后,再通过使用注意权重的GNN进行处理。然后使用多模态融合将节点特征与问题嵌入和位置特征相结合。这个融合操作的输出被用来预测最终的答案。
图像检索
图像检索是从数据库中找到图像的任务,给定一些查询条件。这些查询条件可以采用许多形式,包括相似的图像、自然语言查询,甚至是草图。常用的方法是将数据库图像表示为在某个空间中,其中与查询最接近的图像是与查询之间距离最小的图像。当这个空间用图表示时,GNN对于共享特征和获取更多全局上下文的特征变得非常有价值。Johnson等人 [24] 表明,场景图可以用作图像检索系统的输入。通过允许最终用户创建一个场景图,其中节点表示对象、属性和关系,他们能够通过场景图接地过程返回适当的图像。这涉及将每个场景图对象节点与由对象检测器预测的边界框进行匹配,并使用条件随机场(CRF)以概率的形式表示。使用场景图作为搜索查询而不是自然语言的优点在于,它们在复杂性方面具有很好的可扩展性。一旦基本的场景图被构建,通过添加额外的节点来扩展它并使其更复杂是很简单的。另一个优点是它减少了将搜索查询映射到图像所需的操作。在[24]的基础上,Yoon等人提出了IRSGS(带场景图相似性的图像检索)[56],该方法利用一个语义图,称为场景图。给定一个查询图像,模型将生成一个语义图并将其与数据库中图像的图进行相似性比较。这个图形比较是通过使用GNN生成的图嵌入的内积来实现的(可以是GCN [109] 或GIN [110])。该论文的一个重要贡献是Surrogate Relevance的概念,它是正在比较的图像标题之间的相似性。Surrogate Relevance使用标题的Sentence-BERT嵌入之间的内积计算。这个度量被用作模型的训练信号,以调整由GNN生成的特征嵌入。模型背后的图形对比允许这项工作与[24]相比更好地扩展到大型图像数据库。使用Surrogate Relevance允许这项工作在用户查询与用于支持相关度度量的标题风格相匹配时,潜在地扩展到匹配用户查询。
刘等人 [71] 使用表示为特征嵌入的图像的K最近邻图,提出了使用GCN以及基于图像相似性的新型损失函数。使用GCN增强特征嵌入,以考虑整个图像数据库的全局上下文。通过使用特征嵌入的内积计算图像之间的相似度,相似度越高,检索候选项越好。作者的新型损失函数旨在将相似的图像在嵌入空间中拉近,将不相似的图像远离。与[56]相比,通过使用内积,相似性度量更具确定性。然而,与[56]不同的是,它不能扩展到与基于文本的图像检索与用户查询一起工作。张等人 [111] 也使用K最近邻图,但重点是改进基于内容的图像检索中的重新排序过程。应用GNN来聚合由修改后的邻接矩阵创建的特征。使用GNN允许重新排序过程降低置信度低的节点的重要性。
DGCQ模型 [112] 不是基于纯K最近邻图,而是基于向量量化,这是一种信息论中用于降低向量空间基数的过程。它本质上可以被认为是一种多对一聚类技术,其中一个维数为 的向量空间中的向量 被映射到构成码本 的代码词 集合,其中 。通过使用向量量化,该模型学习可以与图像特征结合形成地标图的代码词。这个图形基于相似性图,除了它还有通过量化过程学习的节点。一旦地标图被构建,GCN被用来传播特征,目的是将相似的图像在特征空间中拉近。使用向量量化允许地标图存在于较低的维度空间中,在计算要将哪些图像从图中返回作为候选项时减少计算量。[57] 的作者采用多模态方法。他们使用GraphSAGE [77] 来有效地学习包含来自图形连接的视觉和概念信息的多模态节点嵌入。连接节点之间的距离减少,而不连接节点之间的距离增加。通过使用代表图像的图节点以及代表元数据标签的节点,他们的模型能够提供基于内容的图像检索以及标签预测。在推理时,显示给模型的图像可以通过它们的K个最近图像附加到图中,附加到相关标签,或两者都附加。与之前的工作 [71]、[56]、[24]不同,Misraa等人 [57] 在图节点中使用多模态嵌入。
Schuster等人 [63] 继续了Johnson等人 [24] 的工作,通过创建一个自然语言解析器将查询转换成一个可以被他们的工作处理的场景图,使他们能够超越基于内容的图像检索并进入基于文本的图像检索。他们的解析器使用Stanford Dependency Parser [64] 创建依赖树,然后修改树。首先执行量化修饰符,确保名词是短语的头部。然后是代词解析,使两个对象之间的关系更加明确。最后,处理复数名词。这涉及到在给定数字修饰符时复制名词实例。然后,将文本场景图映射到图像,遵循 [24] 的方法。Cui等人 [55] 也处理基于文本的图像检索。他们提出了一种利用GCN在视觉和文本信息上提供跨模态推理的方法。输入特征被分成通道,形成完整的图,并经过图卷积。一旦文本和视觉特征被投影到一个共同的空间中,它们的距离使用余弦相似度进行测量。然后将这些相似度得分存储在表示视觉和文本输入之间相似性的矩阵中。
Zhang等人 [113] 处理了一项具有挑战性的任务,即将文本和图像组合到图像检索中,其中给定一个参考图像和修改查询,图像检索系统必须找到一个类似于参考图像的图像,其中包含查询中概述的修改。这一新兴任务的主要挑战在于其跨模态性质。作者通过首先生成参考图像的空间图和修改查询的文本特征来应对这一挑战。然后将这些特征连接起来,再将图形通过GAT进行处理,其注意力机制已被改变以考虑图形的方向性和其编码的空间数据。一组形成全局语义推理(GSR)单元的GRU然后被用来创建参考图像的最终嵌入。在目标图像上使用相同的过程,但不包括文本特征的连接。交叉模态损失函数和对抗损失函数结合在一起,以确保由相同类别的GSR输出的特征更加接近。Chaudhuri等人 [73] 采用了一个Siamese-based网络架构,其中两个相似的输入进入两个单独的网络,共享权重。这种网络架构通常使用对比损失或三元组损失来确保这些网络的输出相似。作者在区域邻接图上采用了一种新颖的Siamese-GCN,该图是通过连接相邻的分割区域并加权边来形成的,考虑到区域质心之间的距离和角度。他们将其技术应用于高分辨率遥感图像的基于内容的图像检索。通过使用具有对比损失的SiameseGCN,作者能够学习一个嵌入,将相似的图像聚在一起并将不相似的图像分开。然后在[114]中,作者添加了一系列注意力机制。他们实现了节点级和边级注意力机制(类似于GAT [80]的样式)。然后将这些注意力机制合并到SiameseGCN中,以改进他们以前的工作。
另一个采用孪生网络设计的工作是张等人的[115]。他们使用三部分网络设计来执行零样本基于草图的图像检索,其中采用孪生编码网络使用ResNet50创建图像和关联草图的特征,将这些特征串联在一起以创建节点特征。节点之间的相似度是通过一个由MLP建模的度量函数计算的,并且这个操作用于填充相似度图的邻接矩阵。然后在相似性图上应用GCN来创建草图-图像对的融合嵌入。作者选择使用条件变分自编码器[116]来重建GCN嵌入中的语义信息,而不是使用MLP。这样做使模型能够为未见类别的草图生成语义信息,有助于模型的零样本部分。
讨论与结论
在本节中,我们借鉴了Battaglia等人的观点[27],讨论了如何通过GNN的视角来看待流行的Transformer[26]。然后,我们讨论了如果将图像生成技术应用于为图像字幕创建新的训练数据,那么其依赖于一致结构可能会带来挑战。本节总结了本文,并概述了基于图的二维图像理解面临的挑战和未来研究方向。
为什么需要GNN,既然有Transformer了
近年来,Transformer架构[26]的流行度迅速上升。它最初是在自然语言处理领域提出的,并很快被应用于计算机视觉任务[46]。随后的研究扩展了这种架构,使其可以直接处理图像[117],[118],使其成为常见视觉任务的骨干。该架构可以应用于广泛的应用程序,使其在深度学习中占据主导地位。社区已经做出一些努力,将基于注意力的方法与GNNs统一起来。Battaglia等人[27]提出了一个更通用的图形网络,其中包括转换器和GNN。他们提出了一个观点,即可以将Transformer视为在完全图上运行的神经架构。将GNN和Transformer视为图形网络表明,它们具有许多相似之处。两种架构都采用一组值,并决定在转换它们以更新值时应考虑多少不同的值,GNN忽略未连接的节点,而Transformer缩放输入的重要性。值得注意的是,如果GNN处理的图是一个完全图,则图形网络将允许所有节点的消息传播到正在更新的节点。因此,可以将Transformer视为在完全图上操作的特殊情况GNN。虽然GNN使用读取模块利用基础结构,但Transformer基于任务学习一个基础结构。
将Transformer应用于任务时,会从零开始学习一个图形结构。与此同时,视觉语言任务中存在许多自然出现的图形结构。这种多种图形类型允许采取不同的图形结构来表示图像,从图像的语义结构到与整个训练集相关的层次结构。图形在任务的语言组件中也自然出现,语句依赖树与语义场景图密切相关(当场景图被作为多部分图进行分析时,如[61]所述)。当数据具有清晰的图形表示时,应该利用它们而不是忽略它们,而不是使用更通用的体系结构学习图形结构。利用现有的图形结构可以使用适当的归纳偏差部署图形网络。这也会导致更少的计算,因为消息不会在所有可能的节点连接之间传递。
当可以利用多个图时,与使用单个图相比,利用多个图是有优势的。如表III所示,只使用单个图类型的架构在图像字幕生成任务中表现不佳,而使用多个图的架构则表现更好。ARL[94]、Sub-GC[60]和Topic[69]均使用单个图(空间图、语义图、相似度图),它们都在基准测试中表现不佳。虽然Topic在BLEU、METEOR和ROGUE方面表现良好,但在专门针对图像字幕生成的指标(SPICE和CIDEr)下评估时,与可比较的模型相比表现不佳。多图方法更有利的主题也在VQA、FVQA和文本VQA任务中得到体现,多图方法胜过单一图形的对应方法。
潜在扩散和图像字幕的未来
目前,图像字幕技术受到其训练数据的限制。虽然COCO在计算机视觉社区中广受欢迎,因为其广泛的场景和对现实世界的适应性,但它也有其缺点。仅在其上训练的字幕系统将永远不会理解特定的艺术风格或超出COCO数据集涵盖的80个类别之外的对象。像DALLE·2 [119]这样的图像生成技术的出现为图像字幕系统提供了机会,使它们超越80个类别的限制,并开始理解图像的各种风格要素。该领域的工作还处于初步阶段[120],[121],但之前的非生成式无监督方法对于图像字幕非常有前途[18]。我们推测,基于潜在扩散的字幕可能是一个有前途的研究方向。但是,为了使这种方法有效地工作,图像生成技术将需要进一步发展。目前,DALLE·2 [119]和类似系统并不能像需要它们能够替换字幕系统的训练数据那样深入理解结构。尽管它们令人印象深刻,但当提示要求生成在现实生活中不太可能的内容时,它们有时会难以正确组装图像。当被要求生成“一只猴子骑在北极熊背上”的图像时,DALLE·2 [119]有时会难以理解两个动物之间的空间关系,导致出现图5中的样本结果。
在图像中发现错误关系的例子不仅仅是在训练数据中想象不太可能存在的物体之间建立关系。Conwell和Ullman [122] 进行了一项参与者研究,要求169人选择他们认为与给定提示很好匹配的生成图像。他们发现,在研究中生成的图像中,只有22%与原始提示匹配。作者得出结论:“当前的图像生成模型甚至还没有掌握涉及简单物体和主体的基本关系”[122]。虽然潜在扩散方法可能在图像字幕的未来发挥作用,但在实现这一点之前,它们需要更深入地理解结构。为了让图形网络[27]适用于扩散生成的训练数据,图像和字幕/提示中的结构必须一致。监督学习方法需要大量非常干净的训练数据才能发挥良好的作用,因此如果图像数据中的基础结构不符合预期,图形网络[27]可能会遇到困难。
最终说明
像图像字幕生成和视觉问答这样的视觉-语言任务为视力障碍或重度视力障碍的人士开发可访问性技术提供了重大机会。在网站和应用程序上普及自动alt-text生成,并实现对在线共享图像进行查询,这些领域的研究具有重大影响。然而,目前的数据集训练的模型容易受到视力正常人类的偏见。VQA数据集中提出的问题和图像字幕数据集中给出的字幕不一定适合这种技术的潜在最终用户的需求。在该领域中,很多人谈论将技术应用于帮助各种程度的视力障碍患者,但实际上很少采取行动。虽然发布经过训练的模型是有希望的,但是将这些模型在研究社区之外提供给其他人也将是有益的。该社区可朝着另一个方向发展,即策划一组由那些需要帮助的人,即视力障碍患者,提出的问题和图像。该数据集还可以包括被视力障碍者认为重要的图像说明。这些说明的包含将产生优先考虑视力障碍者所需信息的字幕,而不是像在现有的图像字幕数据集COCO [33]或Flickr30k [34]中训练的模型所生成的那样,模仿视力正常人类的字幕风格。目前,基于Transformer的大型模型是视觉-语言任务中的最先进技术 [123], [124], [125]。鉴于其训练时的模型大小和计算能力,与本文讨论的模型进行比较可能会很困难。然而,有一些需要注意的要点。
在图像字幕生成方面,基于Transformer的M2模型被基于GNN的体系结构(即Dual-GCN [70])超越。这使得作者认为使用强制的图结构比使用自注意力处理检测到的对象之间的所有关系具有更强的归纳偏差。Dual-GCN [70]使用全局上下文图(考虑整个数据集)和本地上下文图(图像级别关系),这种双重图方法被证明非常有效,未来的工作可以以此为基础展开研究。当前实现SOTA的技术状态是由工业实验室开发的基于Transformer的大型模型主导,这使得与本文讨论的模型进行比较变得困难,考虑到训练使用的模型大小和计算能力。然而,有一些要点需要注意。对于FVQA和图像检索,基于图形的方法具有更强的归纳偏差用于推理任务的阶段。这两个任务都需要处理图形数据(在FVQA中是知识图形,在图像检索中是搜索空间的某些图形表示)。众所周知,Transformer在稀疏图(如知识图)或大型图(如在图像检索中使用的图)上的表现不佳。
使用GNN进行图像字幕技术的采用已经显示出了很大的前景。由于这种方法相对较新,因此在该领域有大量的机会进行进一步研究。如第IV节所示,大多数图像字幕技术使用GCN或GGNN架构。随着GNN的发展和采用新的更具表现力的技术,社区应该放弃传统的消息传递式网络,转向采用这些新技术。例如,GAT [80]模型可能比使用的技术提供更多的优势,因为它将自注意机制纳入了架构中,这是一种经过证明可以产生令人印象深刻的结果的技术,因为Transformer的流行。
在本次调查中讨论的视觉语言任务中,所有使用的GNN都是基于同质性的概念构建的,即相似的节点由一条边连接。但这并不总是适用的,例如,语义图连接了在语义上相关但不相似的对象。一些详细说明的图是同质的(例如图像图),但许多其他图不是。这使我们推测,对于处理的图表现出多少同质性或异质性,应用尊重这些属性的GNN体系结构可能有很多研究机会。
未来的研究方向之一是研究不同图形表示的组合(包括在图像级别和数据集级别),以识别能够很好地一起工作的组合。使用不同的图形表示将允许更好地利用本地和全局特征。将外部知识纳入图像字幕生成可能会提供有趣的研究方向。通常指出,图像字幕生成是一项对视力受损人士有用的辅助技术。但是,这假定用户是一个具有发达世界理解能力的成年人。图像字幕生成系统可能难以应用于儿科可访问性设置中。让模型更详细地解释世界可能会有用。另一个潜在的未来研究方向是统一本文讨论的三个任务。开发一个能够在所有三个任务中表现出色的单一统一模型将标志着一个重要的突破。为了实现这一点,模型必须具有一个公共的中间空间,用于将文本空间和图像空间映射。我们认为,由于它们的表达能力,这个空间最可能是基于图形的。然而,由于高等等人[105]表明,在VQA中,文本空间中的推理优于基于图形的推理,因此文本表示可能也很有用。总之,本文讨论的诸如图像字幕生成等视觉语言任务未来将有丰富的发展前景,并且有许多机会可以利用各种图形结构。
网友评论