美文网首页
An Overview of Cross-Media Retri

An Overview of Cross-Media Retri

作者: s苏薳 | 来源:发表于2019-01-09 18:32 被阅读0次

    \color{red}{ 跨媒体检索概述:概念、方法、基准和挑战 }

    摘要:多媒体检索在大数据利用中起着不可或缺的作用。过去的工作主要集中在单媒体检索上。然而,用户的要求是高度灵活的,例如通过一次图像查询检索相关的音频剪辑。因此,来自“媒体鸿沟”的挑战,也就是说不同媒体类型的表现不一致,引起了越来越多的关注。跨媒体检索是针对查询和检索结果属于不同媒体类型的情况而设计的。作为一个相对较新的研究课题,其概念、方法和基准在文献中尚不明确。为了解决这些问题,我们回顾了100多个参考文献,概述了概念、方法、主要挑战和开放性问题,并建立了基准,包括数据集和实验结果。研究人员可以直接采用基准来快速评估他们提出的方法。这将有助于他们专注于算法设计,而不是耗时的比较方法和结果。值得注意的是,我们已经构建了一个新的数据集xMedia,这是第一个公开可用的数据集,最多有五种媒体类型(文本、图像、视频、音频和三维模型)。我们相信这一综述将吸引更多的研究者关注跨媒体检索,并对他们有所帮助。
    索引术语:跨媒体检索、概述、概念、方法、基准、挑战

    一、引言

    随着文本、图像、视频、音频和三维模型等多媒体数据的快速增长,跨媒体检索越来越具有吸引力,通过跨媒体检索,用户可以通过提交任意媒体类型的一个查询来获得各种媒体类型的结果。例如,在访问门桥时,用户可以提交它的照片,并检索相关的结果,包括文本描述、图像、视频、音频剪辑和3D模型。多媒体检索的研究已经持续了几十年[1]。然而,过去的工作通常集中在单媒体检索,其中查询和检索结果属于同一媒体类型。除单媒体检索外,还提出了处理多种媒体类型的方法。这种方法旨在在检索过程中将多种媒体类型组合在一起,如[2]、[3],但是查询和检索结果必须共享相同的媒体组合。例如,用户可以通过图像/文本对检索图像/文本对。尽管这些方法涉及多种媒体类型,但它们并不是为跨不同媒体类型执行检索而设计的,而且跨媒体的相似性不能直接测量,例如图像和音频剪辑之间的相似性。如今,随着数字媒体内容的生成和随处可见,用户的要求非常灵活,比如通过一次图像查询检索相关的音频片段。这种检索范式被称为跨媒体检索,引起了广泛的关注。它比单媒体检索更有用,更灵活,因为用户可以通过提交他们拥有的内容来检索他们想要的内容[4]。
    跨媒体检索面临的主要挑战是“媒体鸿沟”问题,即不同媒体类型的表现形式不一致,存在于不同的特征空间中,因此衡量它们之间的相似性是非常具有挑战性的。通过分析跨媒体数据中包含的丰富相关性,提出了许多解决这一问题的方法。例如,当前主流的方法是针对不同媒体类型的特征来学习一个中间公共空间,并在一个公共空间中测量它们之间的相似性,称为公共空间学习方法。同时,提出了跨媒体相似性度量方法,通过分析已知的数据关系,直接计算跨媒体相似性,而不需要得到明确的公共空间。跨媒体检索的简要说明如图1所示。现有的检索方法大多只针对两种媒体类型(主要是图像和文本)进行检索,但跨媒体检索强调了媒体类型的多样性。因此,在统一的框架中仍然存在将其他媒体类型(如视频、音频和3D模型)合并到一起的问题。由于我们对跨媒体检索的研究已经持续了几年[5]–[12],我们发现一些关于概念、方法和基准的关键问题在文献中仍然不清楚。为了解决这些问题,我们回顾了100多篇参考文献,目的是:
    •总结现有的工作和方法,以提供一个概述,这将有助于跨媒体检索的研究。
    •建立基准,包括数据集和实验结果。这将有助于研究者专注于算法设计,而不是耗时的比较方法和结果,因为他们可以直接采用基准来快速评估他们提出的方法。
    •为跨媒体检索的综合评估提供新的数据集xMedia。它是第一个公开可用的数据集,包含多达五种媒体类型(文本、图像、视频、音频和3D模型)。
    •提出主要挑战和开放性问题,对跨媒体检索的进一步研究方向具有重要意义。

    图1。简要介绍了跨媒体检索的两种主要方法,即公共空间学习法和跨媒体相似性测量法。

    表一跨媒体检索的代表性工作。u表示无监督方法,s表示有监督的方法,f表示有监督的方法,r表示有监督反馈的方法,不能被监督设置分类。

    本文的其余部分组织如下:第二节介绍了跨媒体检索的定义。第三节、第四节和第五节介绍了公共空间学习、跨媒体相似性测量和其他方法的代表性工作,如表一所示。第六节总结了跨媒体检索中广泛使用的数据集,第七节介绍了跨媒体检索的实验结果。这些数据集。第八节介绍了开放性问题和挑战,最后第九节总结了本文。

    二、跨媒体检索的定义

    为了明确跨媒体检索的定义,我们以两种媒体类型x和y为例,给出了跨媒体检索定义的公式。培训数据表示为dtr=xtr,ytr,其中,ntr=xp ntr p=1,其中ntr表示培训的媒体实例数,xp表示第p个媒体实例。同样,我们表示Ytr=Yp NTR p=1。xp和yp之间存在共存关系,这意味着不同媒体类型的实例一起存在来描述相关的语义。培训数据的语义类别标签可以提供并表示为cx p ntr p=1和cy p ntr p=1,表示媒体实例的语义类别为longto。测试数据表示为dte=xte,yte,其中,dte=xq nte q=1,yte=yq nte q=1。其目的是计算跨媒体相似性SIM(XA,YB),并在测试数据时检索不同媒体类型的相关实例,以用于任何媒体类型的一个查询。无监督方法采用所有训练数据未标记的设置,半监督方法采用只标记训练数据子集的设置,而完全监督方法采用所有训练数据标记的设置。有些作品涉及分析不同媒体类型之间的相关性,主要是图像和文本,但它们与跨媒体检索有很大的不同。例如,图像注释方法(如[13])旨在获得标记分配给图像的概率,而在跨媒体检索中,文本指的是句子或段落描述,而不仅仅是标记。图像/视频标题的方法,如[14]、[15]主要用于生成图像/视频的文本描述,而跨媒体检索的目的是在现有数据中查找图像/视频的最相关文本,反之亦然。它们之间的另一个重要区别是图像/视频标题只关注图像/视频和文本,不容易扩展到其他媒体类型,而跨媒体检索则是跨所有媒体类型的检索,如文本、图像、视频、音频和3D模型。此外,还有一些涉及不同媒体类型的转移学习作品,如[16],但转移学习和跨媒体检索在两个方面有所不同:(1)转移学习是一个具有广泛方法和应用覆盖的学习框架,它允许培训和测试中使用的域、任务和分布与众不同[17]。然而,跨媒体检索是跨媒体类型的一项特殊的信息检索任务,其特有的挑战和焦点是“媒体鸿沟”问题。(2)“转移学习旨在从一个或多个源任务中提取知识,并将知识应用于目标任务”[17],并且存在不同的源域和目标域。但是不同的媒体类型在跨媒体检索中被同等对待,并且通常没有不同的源和目标域,或者源和目标任务。

    三、公共空间学习

    基于空间学习的公共方法是当前跨媒体检索的主流。他们认为共享相同语义的数据具有潜在的相关性,这使得构建公共空间成为可能。以金门大桥为例,所有的文字描述、图像、视频、音频片段和3D模型都描述了相似的语义。因此,它们可以在一个公共的高级语义空间中彼此接近。这些方法的目的是学习这样一个公共空间,并显式地将不同媒体类型的数据投影到这个空间进行相似性测量。主要介绍了现有的七类方法:(a)传统的统计相关分析方法是常用的空间学习方法的基本范式和基础,主要通过优化统计值来学习公共空间的线性投影矩阵。其他类别根据不同方面的特点进行分类:•在基本模型上,(b)基于DNN的方法以深度神经网络为基本模型,旨在利用其强大的抽象能力进行跨媒体相关学习。•在相关性建模方面,(c)跨媒体图正则化方法采用图模型来表示复杂的跨媒体相关性,(d)度量学习方法将跨媒体相关性视为一组相似/不同的约束,以及(e)学习排名方法将跨媒体排名信息作为优化对象。的。•在公共空间的属性上,(f)字典学习方法生成字典,学习的公共空间用于跨媒体数据的稀疏系数,(g)跨媒体哈希方法旨在学习公共汉明空间,以加速检索。由于这些类别是根据不同的方面进行分类的,因此这些类别之间存在一些重叠。例如,可以将[7]的工作归类为度量学习和图形正则化方法。
    a.传统的统计相关分析方法
    传统统计相关分析方法是传统空间相关学习的基本范式和基础。方法主要通过优化统计值来学习线性投影矩阵。规范相关分析(CCA)[18]是[19]中介绍的最具代表性的工作之一。跨媒体数据通常组织为具有不同媒体类型(如图像/文本对)的成对数据集。对于这种情况,CCA是一种可能的解决方案,它学习一个子空间,使两组异构数据之间的成对相关性最大化。作为早期的古典作品,CCA也被用于一些最近的作品,如[20]和[21]。CCA及其变体(如[22]–[26])是最流行的跨媒体检索基线方法。CCA本身是不受监督的,不使用语义类别,但研究者也试图将其扩展为包含语义信息的DCCA。Rasiwasia等人[27]首先提出应用CCA来获取图像和文本的公共空间,然后通过逻辑回归实现语义抽象。Pereira等人。[28]然后进一步验证CCA与语义类别标签结合的有效性。GMA[29]还提高了准确性,这是CCA的监督扩展。多视角CCA[25]将高层次语义作为CCA的第三视角,设计多标签CCA[26]来处理跨媒体数据具有多个标签的场景。这些方法取得了长足的进展,表明语义信息有助于提高跨媒体检索的准确性。除CCA外,还有其他传统的统计相关分析方法。例如,交叉模态因子分析(CFA)[30]是为了最小化公共空间中成对数据之间的弗罗贝尼乌斯范数。作为跨媒体公共空间学习的基本范式,这些方法对于实现跨媒体公共空间学习是比较有效的,然而,仅仅通过线性预测就很难完全模拟现实世界中跨媒体数据的复杂相关性。此外,这些方法大多只能对两种媒体类型进行建模,但跨媒体检索通常涉及两种以上的媒体类型。
    b.基于dnn的方法
    随着深度学习的发展,深神经网络(dnn)在对象识别[31]和文本生成[32]等不同的多媒体应用中显示了其潜力。由于具有相当大的学习非线性关系的能力,DNN还可用于对不同媒体类型的数据进行公共空间学习。NGAMAM等。[33]将受限Boltzmann机器(RBM)的一个扩展应用于公共空间学习,提出了双峰深度自动编码器,其中两种不同媒体类型的输入通过共享代码层,以学习跨媒体相关性并保留重建信息。在此基础上,提出了一些类似的深层结构,并在跨媒体检索方面取得了进展。例如,srivastava和salakhuttdinov[34]采用两个独立的深Boltzmann机器(DBM)对不同介质类型特征的分布进行建模,并在两个模型的顶部添加一层作为联合表示层,通过计算联合分布来学习公共空间。
    也有一些尝试将dnn和cca结合起来作为深度标准相关分析(dcca)[24],[35]。DCCA可以看作CCA的非线性扩展,用于学习两种介质类型的复杂非线性变换。与以往的[33]、[34]不同的是,DCCA中有两个独立的子网,它们为不同的媒体类型构建了一个具有共享层的网络,并且通过代码层之间的相关约束使总相关性最大化。冯等。[36]提出了三种公共空间学习体系结构:对应自动编码器、对应跨模式自动编码器和对应全模式自动编码器。它们都有相似的体系结构,由两个子网络耦合在代码层上,共同考虑重构误差和相关损失。一些作品还包括两个自动编码器,如独立组件多模式自动编码器(ICMAE)[37]和深规范相关自动编码器(DCCAE)[38]。icmae通过学习跨可视和文本模式的共享表示来关注属性发现,dccae通过整合重建错误和规范相关性来优化。彭等人。[12]提出跨媒体多深度网络(CMDN),这是一种具有多个深度网络的层次结构。CMDN共同保存了媒体内和媒体间的信息,为每种媒体类型生成两种互补的独立表示,然后将它们分层组合,通过一种堆叠的学习方式学习公共空间,提高了检索的准确性。此外,在[39]的工作中,用户点击被用作跨媒体公共空间学习的侧边信息。上述方法的很大一部分是非卷积的,并将手工制作的特征作为输入,如[12]、[36]。魏等。[40]提出深度SM,利用深度语义匹配的卷积神经网络(CNN),展示CNN特征在跨媒体检索中的强大作用。他等。[41]提出了一种深度和双向的表示学习模型,利用两个基于卷积的网络同时对匹配和不匹配的图像/文本对进行建模训练。跨媒体检索中使用的深层结构主要有两种方式。第一种方法可以看作是一个网络,不同媒体类型的输入通过同一共享层[33],[34],而第二种方法则由子网络组成,子网络由代码层[36],[42]上的相关约束耦合而成。这些方法以DNN为基本模型,具有处理复杂跨媒体关联的抽象能力。然而,训练数据通常对DNN模型的性能起着关键作用,大规模的标记跨媒体数据集比单媒体数据集更难收集。值得注意的是,上述大多数作品都有只接受两种媒体类型作为输入的限制,尽管最近有一些作品涉及两种以上的输入,如[43],其中包含了五种输入类型。共同学习两种以上媒体类型的公共空间可以提高跨媒体检索的灵活性,这是未来研究的一个重要挑战。除上述工作外,其他深层架构也已设计用于多媒体应用。例如图像/视频标题和文本到图像合成[14]、[15]、[44]、[45]。例如,经常性神经网络(RNN)和长短期记忆(LSTM)[14],[15]已应用于图像/视频标题,可以生成视觉内容的文本描述。生成性对抗网络(gans)由Goodfellow等人提出。[46]通过同时训练两个模型(一个生成模型和一个识别模型),生命生成模型是一个对手的过程。甘斯的基本思想是在两个玩家之间建立一个游戏,并让两个对手相互对抗。每个参与者都由一个可微分函数表示,根据[47]的规定,该函数通常作为深度神经网络来实现。里德等人。[44]开发一个GANS公式,将视觉概念从字符转换为像素。后来,他们提出了生成对抗式的“在何处网络”(GAWWN)[45]通过给出内容的位置来合成图像,这些方法并不是直接为跨媒体检索设计的,但它们的思想和模型对其有价值。
    c.跨媒体图正则化方法图
    正则化[48]在半监督学习中得到了广泛的应用,从局部标记图的角度考虑了半监督学习问题。边缘权重表示图中数据的属性,目的是预测未标记顶点的标签。图的正则化可以丰富训练集,使求解更加顺利。翟等人。[7]提出联合图正则化异构度量学习(JGRHML)。它们将图形正则化引入跨媒体检索问题,利用已知度量空间中的数据构造联合图形正则化项。然后,他们提出了联合表示学习(JRL)方法[10],这种方法能够在统一的框架工作中联合考虑相关性和语义信息,从而达到有效的媒体类型。具体来说,他们为每种媒体类型构建了一个单独的图表,其中边缘权重表示同一媒体类型的已标记和未标记数据的属性。通过图形正则化,JRL丰富了训练集,共同学习了每种媒体类型的投影矩阵。由于JRL为不同的媒体类型分别构建了不同的图形,Peng等人[11]进一步建议为公共空间中的所有媒体类型构建统一的超图,从而不同的媒体类型可以相互促进。[11]的另一个重要改进是通过媒体实例分割来利用负面信息,这有助于利用跨媒体数据的多级相关性。图形正则化也是近年来一些著作的重要组成部分,如[49]–[51],其中跨媒体图形正则化术语用于保持媒体内部和媒体间的相似关系。图正则化是跨媒体相关学习的有效方法,因为它可以描述跨媒体数据的各种相关性,如语义相关性、跨媒体相似性和跨媒体相似性。此外,图形正则化可以在一个统一的框架中自然地建模两种以上的媒体类型[11]。然而,图的构造过程往往会带来很高的时间和空间复杂度,特别是在真实的场景中,有大规模的跨媒体数据。
    d.度量学习方法
    度量学习方法旨在从给定的相似/不同信息中学习输入特征的转换,以获得更好的度量结果,这在单媒体检索中得到了广泛应用[52],[53]。将跨媒体数据视为多视图单媒体数据的扩展是很自然的,因此研究人员试图将度量学习直接应用于跨媒体检索。直观地说,我们可以学习两种媒体类型的两种转换,并让相似的实例接近,不同的实例分开[54]。JGRHML[7]是跨媒体度量学习的代表性工作,也在第三章C节中进行了讨论。除了相似/不同的信息外,JGRHML还引入了度量学习的联合图正则化术语。在联合图的正则化中,不同的介质类型是互补的,联合优化可以使求解更加顺利。度量学习在公共空间学习中保留了语义相似/不同的信息,对跨媒体数据的语义检索具有重要意义。然而,现有的[7]和[54]等跨媒体检索的度量学习方法的主要局限性在于,它们依赖于监管信息,在监管信息不可用时不适用。
    e.学习排序方法
    学习排序方法,将排序信息作为训练数据,直接优化检索结果的排序,而不是成对数据的相似性。早期的学习排名的工作主要集中在单媒体检索上,但一些工作如[55]表明它们可以扩展到跨语言检索。在[56]的工作中,提出了一种识别模型来学习从图像空间到文本空间的映射,但只涉及单向排序(文本→图像)。对于双向排序方法(特别是文本→图像和图像→文本排序信息),Wu等人[57]ProposeBI DirectionalCross Media Semantic Representation Model(bi-cmsrm)优化双向列表式排名损失。为了整合最终信息,Jiang等人[58]首先将可视对象和文本词投影到本地公共空间中,然后将它们与排名信息以组合方式投影到全局公共空间中。此外,Wu等人[59]采用条件随机场进行共享主题学习,然后利用排名函数进行潜在的联合表示学习,Leaningto Rankis为直接定义最终检索性能而设计,可作为跨媒体检索的优化目标。现有的方法主要涉及两种媒体类型,如[56]、[57]和[59],当媒体类型数量增加时,如何将两种以上媒体类型的排名信息合并到一个统一的框架中仍然存在问题。
    字典学习方法字典学习方法认为数据由两部分组成:字典和稀疏系数。这个想法也可以被纳入跨媒体检索:分解数据输入每个介质的介质特定部分,以及用于跨模态关联的公共部分。莫纳西等。[60]建议学习从音频和视频信号中恢复有意义的同步模式的多模态字典。这种方法的关键思想是学习联合的视听词典,从而确定不同形式的时间相关性。然而,由于它只采用同步的时间信号作为输入,因此不是跨媒体检索方法。贾等。[61]建议为每种形式学习一本词典,而这些词典的权重相同。在这项工作中,数据被清晰地分解为两部分:私有字典和共享系数。朱等。[62]提出交叉模态子模字典学习(CMSDL),它学习模态自适应字典对和用于跨媒体表示的同构空间。耦合字典学习[63]是为两种视图联合构造私有字典的有效方法。庄等。[64]建议将单媒体耦合字典学习扩展到跨媒体检索,假设不同媒体类型的稀疏系数之间存在线性映射。一种媒体类型的数据可以通过这些稀疏系数映射映射到另一种媒体类型的空间中。综上所述,字典学习方法以因子分解的方式对跨媒体检索问题进行建模,公共空间用于稀疏系数。基于这一观点,他们对方法有不同的看法,例如所有媒体类型都有一个独特的稀疏系数[61]和一组不同媒体类型稀疏系数之间的投影[64]。由于高稀疏性,从不同介质类型的稀疏系数中捕获跨介质相关性更容易。然而,大规模跨媒体数据字典学习的海量计算是解决优化问题的一个挑战。
    g.跨媒体散列方法
    跨媒体散列方法是当前多媒体数据量急剧增长的一种方法,对检索系统的效率要求很高。散列法是为加速检索过程而设计的,广泛应用于各种检索应用中。然而,其中大多数只涉及单一媒体类型,如图像[65]。例如,Tang等人[66]提出利用局部邻域结构的识别信息学习图像散列函数,利用原始空间样本的邻域提高检索精度。跨媒体散列的目的是为多个媒体类型生成散列码,并将跨媒体数据投影到一个公共的汉明空间中。已经有一些工作将单媒体散列扩展到具有多个视图或信息源的数据检索,如[67]和[68]。它们不是专门为跨媒体检索而设计的,但是这些方法和思想可以很容易地应用到跨媒体检索中。例如,为了对多个信息源进行建模,张等人[68]提出了具有多个信息源(chmis)的复合哈希算法,其思想是保持原始空间中的相似性和多个信息源之间的相关性。同样,保存媒体间和媒体内的相似性是后来一些跨媒体检索工作中的一个关键原则[49]、[69]–[71]。例如,Wu等人[49]首先应用超图来模拟媒体内和媒体间的相似性,然后学习用于生成哈希代码的多模式字典。本文还考虑了哈希码的识别能力[72],这有助于在有监督的情况下学习哈希码。最近,龙等人[73]建议以无缝方案学习公共空间投影和复合量化器,而大多数现有作品将连续公共空间学习和二进制代码生成视为两个独立的阶段。此外,跨媒体散列方法也多种多样,如[74]–[83]。这些模型从本征分解和增强[74]到概率生成模型[71],甚至是深层架构[78],[82]。上述跨媒体散列方法主要考虑了跨媒体相似性、跨媒体相似性和语义识别能力等相似因素。值得注意的是,跨媒体散列方法是基于学习的,因为它们从跨媒体相关性中学习,以弥合“媒体鸿沟”。跨媒体散列由于具有短二进制散列码的特点,在检索效率上具有优势,有利于在现实世界中对大规模数据集进行检索。然而,诸如[78]–[83]这样的现有作品只涉及两种媒体类型(主要是图像和文本)之间的数据检索。在实验中,利用维基百科(2866个图像/文本对)和Pascal句子(1000个图像/文本对)等小尺度数据集对散列算法的精度进行了评价[70]、[75]、[76]、[78]、[83]。然而,这种小规模的数据集不能有效地验证哈希的效率优势。
    H.其他方法、
    仍有一些方法不易归类为上述类别。他们还遵循将异构数据投影到公共空间的思想,以便直接测量它们的相似性。例如,Zhang等人[84]提出一种两步方法,首先将数据投影到高维公共空间,然后根据类内距离和类间距离将高维空间的数据映射到低维公共空间。Kang等人[85]基于命题组的一致性特征学习(LGCFL)处理不成对数据。在这种方法中,公共空间学习可以根据语义类别标签获得,而不是像CCA那样严格配对数据。大多数现有的方法只能为每种媒体类型学习一种投影,如[10]、[18]和[27]。这可以进一步解释为两个主要方面:第一个方面是为每种媒体类型只学习一个全局投影,这可能导致大规模和复杂数据的灵活性。相反,Hua等人[86]提出学习一组局部投影,分析层次结构,利用数据标签的语义相关性。第二种是对所有检索任务(如图像→文本和文本→图像检索)使用相同的投影。相反,Wei等人[87]建议学习不同的图像投影矩阵→文本检索和文本→图像检索。在[20]等著作中也提出了针对不同任务培训不同模型的想法。然而,这种观点存在一个局限性,即随着检索任务数量的增加,要学习的投影矩阵的数量也将增加。在尝试发现为两个不同的高维数据集提供常见的低维表示的子空间和流形[88]之后(例如,来自不同观点的两个图像数据集),一些工作(如[89]也扩展了跨媒体检索的流形对齐。这些方法具有高维数据具有低维流形结构的直观性,旨在通过对齐其底层流形表示来确定不同媒体类型的公共空间投影。
    四、跨媒体相似性测量
    跨媒体相似性测量方法的目的是直接测量异构数据的相似性,而不显式地将媒体实例从其单独的空间投影到公共空间。由于缺乏公共空间,跨媒体的相似性不能通过距离测量或常规分类直接计算。一种直观的方法是使用已知的媒体实例和数据集中的相关性作为弥合“媒体鸿沟”的基础。现有的跨媒体相似度测量方法通常采用图中边缘的概念来表示媒体实例和多媒体文档之间的关系,根据不同的方法重点,我们进一步将它们分为两类:(a)基于图的方法侧重于构建媒体实例和多媒体文档之间的关系。f图和(b)邻域分析方法主要考虑如何利用数据的邻域关系进行相似性测量。这两个类别在算法过程中有重叠,因为邻域关系可以用构造图来分析。
    a.基于图形的方法
    基于图的方法的基本思想是将跨媒体数据视为一个或多个图中的顶点,并通过跨媒体数据的相关性构造边缘。单媒体内容的相似性、共存关系和语义类别标签可以共同用于图形的构建。通过相似性传播[90]和约束融合[91]等过程,可以得到检索结果。这些方法通常集中于当MMD中的相关性可用时的情况,其中包含具有相同语义的多个媒体类型的数据[92]。MMD中数据的共存关系为不同媒体类型的桥接提供了重要的提示。例如,表明MMD相似性的图表在[4]和[23]中起着重要作用,在此图表中,基于MMD定义的跨媒体检索也起着重要作用。佟等。[91]为每种媒体类型构建一个独立的图表。这些图通过线性融合或序列融合进一步组合,然后进行跨媒体数据的相似性测量。与[91]不同,庄等人[90]构建统一的跨媒体相关图,整合所有媒体类型。边缘权重由单媒体数据的相似性和共存关系决定。此外,在[94]的工作中也考虑了网页上MMD之间的链接。Yang等人[95]提出了一个两级图形构建策略。它们首先构建两种类型的图:一种是针对每种媒体类型的图,另一种是针对所有MMD的图。然后,媒体实例的特征沿着MMD语义图传播,构造MMD语义空间进行跨媒体检索。尽管现有的方法大多只考虑相似传播中的正相关,但翟等认为。[6]提出在图形中传播不同媒体类型数据之间的正相关和负相关,提高检索精度。基于图的相似性度量方法的核心思想是构造一个或多个图,并在媒体实例或MMD的层次上表示跨媒体关联。通过图的构造有助于将各种类型的相关信息结合起来。然而,基于图的方法由于图的构造过程而占用了大量的时间和空间。此外,现有的工作通常致力于与MMD相关的场景,相关反馈通常是这些工作中的关键因素,如[4]、[90]和[93]。一方面,当上述相关性不可用时,执行跨媒体检索将很困难,尤其是当查询超出数据集时。另一方面,在实际应用中,MMD之间的关系通常是噪声和不完整的,这也是这些方法面临的一个关键挑战。
    B.邻域分析方法
    一般来说,邻域分析方法通常基于图的构造,因为邻域可以在给定的图[90]、[95]中进行分析。基于图的方法主要涉及图的构造过程,而邻域分析方法主要是利用邻域关系进行相似性度量。Clinchant等人[2]介绍一种多媒体融合策略,称为跨媒体融合,用于跨媒体检索。例如,存在一个包含图像/文本对的数据集,用户通过图像查询来检索相关文本。对图像进行一次查询,根据单个媒体内容的相似性检索其最近邻,然后将这些最近邻的文本描述作为相关文本。翟等人。[5]提出用两个属于同一语义类别的媒体实例的概率计算跨媒体相似性,通过分析每个媒体实例的同构最近邻来计算。马等。[8]提出从集群的角度计算跨媒体相似性。在他们的工作中,首先将聚类算法应用于每种媒体类型,然后根据数据共存关系得到聚类之间的相似性。根据单个媒体内容的相似性,将查询分配给不同权重的集群,然后通过计算集群之间的相似性得到检索结果。
    邻域分析方法通过查询查找数据集中最近的邻域,得到检索结果。这些邻居可以用作扩展查询,并作为数据集查询的桥接器。此外,一些方法,如[5]不依赖MMD,因此它们是灵活的。然而,由于邻域分析方法实际上可能是基于图构造的,因此它们也存在着时间和空间复杂度较高的问题。同时也很难保证邻居之间的关系,所以表现不稳定。

    五、其他跨媒体检索方法

    除了常见的空间学习和跨媒体相似性测量方法外,我们还将其他两类跨媒体方法分为两个部分:(a)相关反馈分析是提供更多用户意图信息以提高检索性能的辅助方法。(b)多模式主题模型在主题级别查看跨媒体数据,通常通过计算条件概率获得跨媒体相似性。
    a.相关性反馈分析
    关联反馈分析为弥合巨大的“媒体鸿沟”,关联反馈(RF)有利于提供更准确的信息并促进检索的准确性。值得注意的是,射频在跨介质相似性测量中得到了广泛的应用,并在一些工作中得到了验证[4]、[93]、[95]。射频包括两种类型:短期反馈和长期反馈。短期反馈只涉及当前用户提供的射频信息,而长期反馈则考虑所有用户提供的射频信息。对于短期反馈,在[4]、[95]的工作中,当查询超出数据集时,系统会用查询显示数据集中最近的邻居,用户应将其标记为正样本或负样本。然后根据反馈重新确定相似性。对于长期反馈,Yang等人[93]建议将长期反馈信息转换为成对的相似/不同约束,以重新确定数据的矢量表示。庄等。[90]利用长期和短期反馈。对于长期反馈,他们首先调查所有反馈的全局结构,然后重新定义统一的跨媒体相关图。对于短期反馈,他们只使用正样本作为扩展查询。射频技术是一种以交互方式提高检索精度的辅助技术,但需要人工成本。
    b.多模主题模型
    多模主题模是受文本处理中潜在dirichlet分配(lda)[96]等主题模型的启发,将主题模型扩展到多模检索中。这些模型通常是为图像注释等应用程序设计的,涉及图像及其相应的标记。对应lda(corr lda)[97]是lda对图像注释的经典多模态扩展。具体来说,它首先生成图像区域描述,然后生成标题。但是,它严格假设每个图像主题必须有一个对应的文本主题。为了解决这个问题,主题回归多模式lda(tr mmlda)[98]对图像和文本使用两个单独的主题模型,并最终应用回归模块关联两个隐藏的主题集。然而,仍然需要一个强有力的假设,即文本中的每一个词都有一个直观的解释。为了使主题模型更加灵活,并执行跨媒体检索,Jia等人[99]提出了多模式文档随机字段(MDRF)方法,可以将其视为LDA主题模型上的马尔可夫随机字段。王等。[100]提出一个下游监督主题模型,构建一个联合跨模态概率图形模型,发现语义主题之间的一致性。多模式主题模型旨在分析主题层面的跨媒体关联,然而,这些现有的方法往往对跨媒体主题的分布有很强的假设,例如,不同媒体类型之间存在相同的主题比例或成对的主题对应关系,这在实际应用中是不满意的制作。

    表二跨媒体检索参考文献中几种常用数据集的使用频率

    六、跨媒体检索数据集

    数据集对跨媒体检索方法的评价具有重要意义。我们研究了本文的所有参考文献,并总结了表二中几种流行数据集的频率。结果表明,维基百科和NUS-wide数据集是应用最广泛的跨媒体检索数据集。Pascal VOC数据集是跨媒体检索的一系列重要数据集,也是Pascal句子数据集的基础。PascalVOC 2007数据集是PascalVOC数据集中最流行的一个。此外,xMedia数据集是第一个包含最多五种媒体类型的跨媒体数据集。我们首先介绍专门为跨媒体检索而设计的维基百科和Xmedia数据集,然后介绍其余的nus-wide和pascal voc 2007数据集。此外,我们还介绍了一个大规模的基于点击的数据集点击。
    a.维基百科数据集
    维基百科数据集[27]是跨媒体检索最广泛使用的数据集。它基于维基百科中的“特色文章”,这是一个不断更新的文章集。“特色文章”共有29个类别,但实际上只考虑了10个人口最多的类别。每一篇文章都根据其章节标题分成几个章节,这个数据集最终被生成为一组2866个图像/文本对。维基百科数据集是跨媒体检索的重要基准数据集。但是,此数据集规模较小,只涉及两种媒体类型(图像和文本)。此数据集中的类别具有较高的语义,难以区分,如战争和历史,导致检索评估的混乱。一方面,它们之间存在一些语义重叠这些类别。例如,战争(应该属于战争范畴)通常也是历史事件(应该属于历史范畴)。另一方面,即使属于同一类别的数据在语义上也可能存在很大差异。
    b. Xmedia数据集
    为了全面、公正地评价Xmedia数据集,我们构建了一个新的跨媒体数据集Xmedia。我们选择了昆虫、鸟类、风、狗、老虎、爆炸和大象等20个种类。这些类别是特殊的对象,可以避免混淆和重叠。对于每个类别,我们收集了五种媒体类型的数据:250个文本、250个图像、25个视频、50个音频剪辑和25个3D模型,因此每个类别有600个媒体实例,媒体实例总数为12000个。所有的媒体实例都是从著名的网站(维基百科、Flickr、YouTube、3D Warehouse和普林斯顿3D模型搜索引擎)抓取的。Xmedia数据集是第一个具有最新媒体类型(文本、图像、视频、音频和3D模型)的跨媒体数据集,已用于我们的工作[7]、[10]、[11]中,以评估跨媒体检索的有效性。XMedia数据集是公开的,可以通过以下链接访问:http://www.icst.pku.edu.cn/mipl/xmedia
    c.nus-wide数据集
    nus-wide数据集[101]是一个包含图像及其相关标签的Web图像数据集。图像和标签都是通过其公共API从Flickr中随机获取的。在删除重复的图像后,在81个概念的nus-wide数据集中有269648个图像。总共425059个独特的标签最初与这些图像相关。然而,为了进一步提高标签的质量,那些出现不超过100次且WordNet[102]中不存在的标签将被删除。因此,最终5018个独特的标签包含在这个数据集中。
    D.Pascal VOC 2007数据集
    Pascal Visual Object Classes(VOC)Challenge[103]是视觉对象类别检测和识别的基准。帕斯卡VOC 2007是最流行的帕斯卡VOC数据集,其中包括9963个图像分为20个类别。图像注释用作跨媒体检索的文本,并在804个关键字的词汇表中定义。
    e.clickture数据集
    clickture数据集[104]是一个大规模的基于点击的图像数据集,它是从商业图像搜索引擎的一年点击率数据中收集的。完全点击数据集由4000万个图像和7360万个文本查询组成。它还有一个子集clickture-lite,有100万个图像和1170万个文本查询。根据最近的工作,如[39],[105],我们采用Clickture Lite进行实验评估。培训集由2300万个query image click-triad组成,其中“click”是一个表示图像和查询之间相关性的整数,测试集有79926个查询图像对,由1000个文本查询生成。在上述数据集中,维基百科和xMedia数据集是专门针对跨媒体检索而设计的。nus-wide和pascal voc 2007数据集是图像/标签数据集,最初设计用于评估其他应用程序,如图像注释和分类。这两个数据集中只有文本标签,而不是维基百科和Xmedia数据集中的句子或段落描述。Clickture数据集是这些数据集中最大的一个,但它不提供类别标签作为监督信息。

    七。实验

    a.特征提取和数据集分割
    本小节介绍了实验中的特征提取策略和训练/测试集的分割。对于维基百科、Xmedia和Clickture数据集,我们采用与[27]相同的策略生成文本和图像表示,视频、音频和3D模型的表示与[10]相同。具体来说,文本由10主题LDA模型的柱状图表示,图像由128个码字的SIFT码本的Bagof可视字(BOVW)柱状图表示。视频首先被分割成几个视频镜头,然后提取128维Bovw柱状图特征用于视频关键帧。音频剪辑由29维的mfcc功能表示,三维模型由连接的4700维的lightfieldDescriptor集表示。对于nus-wide数据集,我们使用1000维字频率特征和文本,以及500维bovw特征用于Chua等人提供的图像。〔101〕。对于Pascal VOC 2007数据集,我们使用公开的功能进行实验,这与[85]相同,其中399维数字频率功能用于文本,512维数列表功能用于图像。除dcmit[35]外,上述特征提取策略适用于实验中所有比较方法,因为其架构包含以原始图像和文本为输入的网络。但是,dcmit不涉及视频、音频和3D模型的相应网络,因此对于这3种媒体类型,我们使用与所有其他比较方法相同的提取功能。对于维基百科数据集,2173个图像/文本对用于培训,693个图像/文本对用于测试。对于Xmedia数据集,所有Five Media类型的培训和测试集的比率为4:1,因此我们有9600个实例的培训集和2400个实例的测试集。对于nus-wide数据集,我们从有效的URL中选择专门属于最大10个类别之一的图像/文本对。因此,训练集的大小为58620,测试集的总大小为38955。PascalVOC 2007数据集被分成一个训练集,有5011个图像/文本对和一个带有4952个图像/文本对的测试集。实验中只选择了一个对象的图像,最终在训练集中有2808个图像/文本对,在测试集中有2841个图像/文本对。对于Clickture数据集,有1170万个不同的查询和100万个用于培训的唯一图像,以及从1000个查询中生成的79926个用于测试的查询图像对。
    b.评价指标和比较方法
    对跨媒体检索的客观评价进行了两项检索任务:•多模式跨媒体检索。通过提交任何媒体类型的查询示例,将检索所有媒体类型。•双模态跨媒体检索。通过提交任何媒体类型的查询示例,将检索其他媒体类型。在除Clickture数据集之外的所有数据集上,都执行这两个任务,并且使用平均精度(MAP)评分来评估检索结果,这在信息检索中被广泛采用。一组查询的map score是每个查询的平均精度(ap)的平均值。此外,我们还采用了精确回忆曲线(pr曲线)和运行时间进行综合评价。由于本文长度的限制,我们在我们的网站http://www.icst.pku.edu.cn/mipl/xmedia上显示了PR曲线和运行时间。Clickture数据集不提供类别标签,用于使用地图和pr曲线进行评估。相反,它由许多文本查询组成,并且对于每个文本查询,都有多个图像以及图像与查询之间的相关性,这是单向的基本事实。在[39]、[105]之后,我们对每个文本查询执行基于文本的图像检索任务,并将前25个结果(dcg@25)的折扣累积增益作为评估指标。实验中比较的方法有:bitr[20]、cca[18]、cca+smn[27]、cfa[30]、cmcp[6]、dcmit[35]、hsnn[5]、jgrhml[7]、jrl[10]、lgcfl[85]、ml cca[26]、mv cca[25]和s2upg[11]。所有这些方法都在维基百科、xMedia、nus-wide和pascal voc 2007数据集上进行了评估。但是,由于clickture数据集不提供用于受监督培训的类别标签,因此仅在此数据集上评估未受监督的方法(bitr、cca、cfa、dcmit)。
    c.实验结果
    表三显示了多模态跨媒体检索的地图分数。我们观察到,使用cca+smn、hsnn、lgcfl、ml cca、mv cca和jgrhml等语义信息提出的方法比只考虑成对相关的cca、cfa和bitr方法获得更好的结果。由于使用了dnn,dcmit的性能优于cca。CMCP和JRL取得了较好的效果,因为CMCP不仅考虑了不同媒体类型之间的正相关,而且考虑了负相关,JRL结合了稀疏和半监督的规则化,丰富了训练集,使解决方案更为顺利。S22UPG采用了媒体补丁,取得了最佳效果为了建立细粒度关联模型,统一的超图可以对所有媒体类型的数据进行联合建模,从而充分利用它们之间的关联。表四显示了双模态跨媒体检索的地图分数。一般来说,CMCP、HSNN、JGRHML、JRL和S22UPG比其他方法(如bitr、cca和cca+smn)获得更好的效果。它们的发展趋势不同于多模态跨媒体检索的结果。例如,在双模态跨媒体检索中,CMCP、JGRHTML和JRL的结果相近,而JRL在多模态跨媒体检索中明显优于CMCP和JGRHTML。s2upg仍然取得了最好的结果,因为不同媒体类型的细粒度信息可以建模为一个统一的超图形,从而使它们相互促进。值得注意的是,由于Clickture数据集没有为监督培训提供类别标签,因此我们采用监督方法验证其有效性,结果如表五所示。Clickture数据集不同方法的总体趋势与其他数据集相似。我们还对维基百科、Xmedia和点击数据集进行了实验,这些数据集具有文本的弓形特征,CNN的图像和视频特征,以展示具有不同特征的性能。我们使用Alexnet的fc7层提取的4096维alcnn特征和3000维bow文本特征。由于页面限制,我们只在表六中给出了维基百科数据集上跨模式和双模式跨媒体检索任务的所有地图分数的平均值,详细结果以及其他数据集的结果可在我们的网站上找到:http://www.icst.pku.edu.cn/mipl/xmedia。表六显示,特征对检索精度有显著影响。一般来说,CNN的功能显著提高了大多数比较方法的性能,而弓功能的性能并不稳定。

    表三多模态跨媒体检索的地图得分
    表四双模态跨媒体检索的地图分数
    表五点击数据集DCG@25分
    表6维基百科数据集上具有不同功能的多模式和双模式跨媒体检索的所有地图分数平均值

    八。挑战和开放性问题

    a.数据集构建和基准标准化
    数据集对实验评估非常重要,但正如第六节所讨论的,目前只有少数数据集公开用于跨媒体检索。现有数据集在大小、媒体类型数量、分类合理性等方面仍存在不足,如维基百科和Xmedia数据集的大小较小,维基百科数据集仅由两种媒体类型(图像和文本)组成。为了构建高质量的数据集,应考虑特定的问题,例如:数据集中应包括哪些类别?应该涉及多少种媒体类型?数据集应该有多大?这些问题对于评估数据集很重要。例如,正如第六节所讨论的,维基百科数据集的高级语义类别可能导致语义重叠和混淆,从而限制了评估的客观性。为了解决上述问题,我们正在构建一个名为xmedianet的新数据集,它由五种媒体类型(文本、图像、视频、音频和3D模型)组成。我们从WordNet[102]中选择200个类别以确保类别层次结构。这些类别包括两个主要部分:动物和人工制品。有大象、猫头鹰、蜜蜂、青蛙等48种动物,小提琴、飞机、猎枪、照相机等152种文物。媒体实例总数将超过100000个,从维基百科、flickr、youtube、findsounds、freesound和yobi3d等著名网站上进行爬行。一旦数据集准备就绪,我们将在我们的网站上发布:http://www.icst.pku.edu.cn/mipl/xmedia。我们还将提供广泛使用的数据集的实验结果,并鼓励研究人员提交其结果,以建立一个不断更新的基准(作为LFW Face数据集[106]的网站http://vis-www.cs.umass.edu/lfw,以及ImageNet数据集[107]的网站http://www.image-net.org)。研究人员可以直接采用实验结果来评价自己的方法,这将有助于他们把重点放在算法设计上,而不是花时间比较方法和结果,从而大大促进跨媒体检索的发展。
    b.提高准确性和效率。
    跨媒体检索仍然需要有效但有效的方法。首先,精确度有待提高。一方面,现有的方法仍有改进的潜力。例如,基于图的跨媒体相似度测量方法可以使用更多的上下文信息进行有效的图构造,如链接关系。另一方面,单一媒体功能的识别能力也很重要。例如,在第七节的实验中,最先进的方法通常采用低维特征(例如,128维Bovw Primage柱状图特征和10维AllDaFeatures for rtext,如[10]、[11]和[27])。如第7-C节所述,当采用更具歧视性的特征时,如CNN特征对于图像,检索精度将得到提高。其次,效率也是评估和应用的一个重要因素。到目前为止,跨媒体检索数据集的规模仍然很小,并且限制了媒体类型的数量。虽然已经有一些哈希方法用于跨媒体检索,如[69]–[71],但效率问题还没有得到足够的重视。未来,随着我们大规模xMedianet数据集的发布,研究人员将更方便地评估其方法的有效性,这将有助于开发跨媒体检索的实际应用程序。
    c.深度神经网络dnn的应用旨在模拟人脑的神经元结构,自然地处理不同介质类型的相互关系,因此有必要尝试利用dnn来弥合“介质间隙”。实际上,已经有过一些尝试(如第III-B节中的上述方法[34]、[37]),但它们是dnn相对直接的应用程序,主要以单介质特性作为原始输入,并通过扩展现有模型(如自动编码器)为它们执行公共空间学习。虽然基于dnn的方法在跨媒体检索方面取得了相当大的进展[12],但仍有进一步改进的潜力。DNN的应用仍然是跨媒体检索的研究热点,单媒体检索也是如此。一方面,现有的方法主要是将单个媒体特性作为输入,因此它们在很大程度上依赖于特性的有效性。研究工作可致力于设计跨媒体检索的端到端体系结构,以原始媒体实例为输入(如原始图像和音频片段),直接用DNN获取检索结果。一些特殊媒体类型的特殊网络(例如,R-CNN用于目标区域检测[58])也可以纳入跨媒体检索的统一框架中。另一方面,现有的大多数方法只针对两种媒体类型进行设计。在未来的研究中,研究者可以集中于两种以上的媒体类型的联合分析,这将使dnn在跨媒体检索中的应用更加灵活和有效。
    d.上下文相关信息的开发跨媒体检索的主要挑战仍然是不同媒体类型的异构形式。现有的方法试图弥合“媒体鸿沟”,但只取得有限的改进,检索结果不准确。对于图像,检索精度将得到提高。其次,效率也是评估和应用的一个重要因素。到目前为止,跨媒体检索数据集的规模仍然很小,并且限制了媒体类型的数量。虽然已经有一些哈希方法用于跨媒体检索,如[69]–[71],但效率问题还没有得到足够的重视。未来,随着我们大规模xMedianet数据集的发布,研究人员将更方便地评估其方法的有效性,这将有助于开发跨媒体检索的实际应用程序。
    c.深度神经网络
    dnn的应用旨在模拟人脑的神经元结构,自然地处理不同介质类型的相互关系,因此有必要尝试利用dnn来弥合“介质间隙”。实际上,已经有过一些尝试(如第III-B节中的上述方法[34]、[37]),但它们是dnn相对直接的应用程序,主要以单介质特性作为原始输入,并通过扩展现有模型(如自动编码器)为它们执行公共空间学习。虽然基于dnn的方法在跨媒体检索方面取得了相当大的进展[12],但仍有进一步改进的潜力。DNN的应用仍然是跨媒体检索的研究热点,单媒体检索也是如此。一方面,现有的方法主要是将单个媒体特性作为输入,因此它们在很大程度上依赖于特性的有效性。研究工作可致力于设计跨媒体检索的端到端体系结构,以原始媒体实例为输入(如原始图像和音频片段),直接用DNN获取检索结果。一些特殊媒体类型的特殊网络(例如,R-CNN用于目标区域检测[58])也可以纳入跨媒体检索的统一框架中。另一方面,现有的大多数方法只针对两种媒体类型进行设计。在未来的研究中,研究者可以集中于两种以上的媒体类型的联合分析,这将使dnn在跨媒体检索中的应用更加灵活和有效。
    d. 上下文相关信息
    上下文相关信息的开发跨媒体检索的主要挑战仍然是不同媒体类型的异构形式。现有的方法试图弥合“媒体鸿沟”,但只取得有限的改进,检索结果不准确。处理真实的跨媒体数据时。跨媒体关联通常与上下文信息有关。例如,如果一个图像和一个音频剪辑来自两个具有链接关系的网页,那么它们很可能彼此相关。许多现有的方法(如CCA、CFA和JRL)只把共存关系和语义类别标签作为训练信息,而忽略了丰富的上下文信息。实际上,Internet上的跨媒体数据通常不单独存在,并且具有重要的上下文信息,如链接关系。这种上下文信息相对准确,为提高跨媒体检索的准确性提供了重要提示。Web数据通常也是分散的,因此开发复杂实际应用的上下文信息非常重要。我们相信,在未来的研究中,研究者将更多地关注丰富的上下文信息,以提高跨媒体检索的性能。
    e.跨媒体检索的实际应用
    随着有效性和效率的不断提高,跨媒体检索的实际应用将成为可能。这些应用程序可以提供更灵活、更方便的方式从大规模的跨媒体数据中检索,用户愿意采用跨媒体搜索引擎,该引擎能够检索文本、图像、视频、音频和3D等各种媒体类型,并且一次查询任何媒体类型。此外,其他可能的应用场景包括涉及跨媒体数据的企业,如电视台、媒体公司、数字图书馆和出版公司。互联网和相关企业对跨媒体检索都有巨大的需求。

    九、结论

    跨媒体检索是一个重要的研究课题,旨在解决跨媒体类型检索中存在的“媒体鸿沟”。本文回顾了100多篇参考文献,综述了跨媒体检索、建立评价基准以及促进相关研究的概况。介绍了目前常用的空间学习方法和跨媒体相似性测量方法。公共空间学习方法明确地学习一个公共空间,供不同类型的媒体进行检索,而跨媒体相似性测量方法直接测量跨媒体相似性,无需公共空间。还介绍了广泛使用的跨媒体检索数据集,包括维基百科、xMedia、nus-wide、pascal voc 2007和clickture数据集。在这些数据集中,我们构建的Xmedia是第一个具有丰富媒体类型的数据集,用于全面和公平的评估。我们正在进一步构建一个新的数据集Xmedianet,它具有五种媒体类型和100000多个实例。给出了数据集、比较方法、评价指标和实验结果等跨媒体基准,并建立了持续更新的网站进行展示。在讨论的基础上,提出了今后工作面临的主要挑战和有待解决的问题。希望能吸引更多的研究者关注跨媒体检索,促进相关研究和应用。

    相关文章

      网友评论

          本文标题:An Overview of Cross-Media Retri

          本文链接:https://www.haomeiwen.com/subject/fdngrqtx.html