Interaction System(2):Fashion IQ

作者: 阿瑟_TJRS | 来源:发表于2021-12-10 11:04 被阅读0次

CVPR2021. Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback
摘要
背景
- 面向细节的零售的对话界面比经典的基于关键字的搜索界面更自然、更具表现力和用户友好性。
主要工作
- 本文介绍了新的 Fashion IQ 数据集来支持和推进交互式时尚图像检索的研究。
- Fashion IQ 是第一个提供人工生成描述的时尚数据集，这些描述可区分相似的成对服装图像以及由真实产品描述和这些图像的派生视觉属性标签组成的辅助信息。
- 本文提供了对 Fashion IQ 数据特征的详细分析，并提出了基于Transformer的用户模拟器和交互式图像检索器，可以将视觉属性与图像特征、用户反馈和对话历史无缝集成，从而提高了最先进的性能在基于对话的图像检索中。
- 该数据集有利于进一步开发更自然和现实世界适用的对话式购物助手。

image.png

在这项工作中的主要目标之一是为研究人员提供强大的资源来开发基于交互式对话的时尚检索模型。为此，本文引入了一个新的benchmark，即Fashion IQ。
- 该数据集包含各种时尚图像（连衣裙、衬衫和上衣和 T 恤）、文本描述形式的辅助信息和产品元数据metadata、属性标签，以及最重要的是，人工收集的大规模的高质量相关描述。

构成Fashion IQ 数据集的时尚产品图像最初来自产品评论数据集，选择了三类产品项目：连衣裙、上衣和 T 恤和衬衫。对于每张图片，点击了数据集中可用的产品网站的链接，以提取相应的产品信息。
利用产品网站中包含的丰富文本信息，我们从中提取时尚属性标签。
- 产品属性是从产品标题、产品摘要和详细的产品描述中提取的。为了定义产品属性集，我们采用了 DeepFashion中策划的时尚属性词汇表，这是目前最广泛采用的时尚属性预测基准。
- 这总共产生了 1000 个属性标签，这些标签进一步分为五种属性类型：纹理、织物、形状、零件和样式。我们遵循与 [38] 中类似的过程来提取属性标签：如果其关联的属性词在元数据中至少出现一次，则认为图像的属性标签存在。在图 4 中，我们提供了产品评论数据集中提供的原始辅助信息和提取的相应属性标签的示例。为了完成和去噪属性，我们使用在 **DeepFashion **上预训练的属性预测模型。

用户可能通过描述通用关键字开始搜索，这些关键字可以剔除完全不相关的搜索实例，然后用户可以构建自然语言短语，这些短语在指定细微差异方面非常强大在搜索目标和当前搜索结果之间。换句话说，相对描述比使用关键字或属性标签过滤更有效地缩小细粒度案例的范围。
为了确保相关描述可以描述参考图像和目标图像之间的细粒度视觉差异，我们利用产品标题信息来选择相似的图像以使用相关标题进行注释。具体来说，我们首先计算每个产品标题中出现的所有单词的 TF-IDF 分数，然后对于每个目标图像，我们通过在数据库中（在同一时尚类别内）查找图像将其与参考图像配对每个重叠词的 TF-IDF 权重的最大总和。我们为三个时尚类别中的每一个随机选择了 10,000 张目标图像，并为每对收集了两组标题。不一致的标题已被过滤。
为了收集 Fashion IQ 数据的相关标题，我们使用众包收集数据。简而言之，用户位于在线购物聊天窗口的上下文中，并指定了提供自然语言表达的目标，以便与所提供的搜索目标的视觉特征相比，向购物助理传达搜索目标的视觉特征。

Fashion IQ 的相关标题的长度和每张图片的属性数量在所有三个类别中具有相似的分布。在大多数情况下，属性标签和相关标题包含补充信息，从而共同构成确定图像之间关系的更强基础。
为了进一步了解相对标题与经典属性标签相比的独特属性，我们对 200 个随机选择的相对标题的子集进行了语义分析。分析结果如下图所示中。Fashion IQ 中几乎 70% 的所有文本查询都由组合属性短语组成。许多标题是简单的形容词-名词对（例如“红樱桃图案”）。然而，这种结构比简单的“属性包”表示更复杂，构建起来很快就会变得很麻烦，需要大量的词汇和复合属性，或多步骤组合。此外，超过 10% 的数据涉及更复杂的组合，通常包括构成对象的直接或相对空间参考（例如“侧面和底部的粉红色条纹”）。分析表明，相对描述是一种比属性标签更具表现力和灵活性的注释形式。

Multimodal Transformers for Interactive Image Retrieval

本文在提出的框架基础上，提出利用多模态Transformer进行模型改造。
- relative captioner transformer 相对描述Transformer
  - 调整了转换器架构，然后将其用作用户模拟器来训练我们的交互式检索系统
- multimodal 多模态检索
  - 以统一的方式结合图像特征、时尚属性和用户的文本反馈。与基于 RNN 的方法（例如，[18]）相比，这种统一的检索架构在包含的模态方面具有更大的灵活性，只要包含新的模态，就可能需要进行系统的修订

视觉特征捕捉到了 Ir 和 It 之间的细粒度差异，属性特征有助于突出两种服装之间的显着差异。
- 具体来说，使用 CNN 编码器 fI(·) 对每张图像进行编码；
- 为了从每张图像中获得突出的时尚属性集，我们使用属性预测模型 fA(·) 并从参考中选择前 N = 8 个预测属性 {ai}r 和目标 {ai}t 图像分别基于 fA(Ir) 和 fA(It) 的置信度得分。然后，将每个属性嵌入到基于词编码器 fW(·) 的特征向量中。
最后，Transformer模型关注 Ir 和 It 的图像特征及其属性的差异，生成相对差异描述：；其中{wi}是为标题生成的单词序列。
- 这里直接使用了图像embedding的差值来取特征差。

为了启动交互，系统可以选择随机图像（假设没有关于用户搜索意图的先验知识），或者根据用户基于关键字的查询检索图像。然后在每一轮，用户提供基于当前检索到的图像的文本反馈以引导系统朝向目标图像，并且系统基于迄今为止接收到的所有用户反馈以新检索到的图像进行响应。
在这里，我们采用了一种转换器架构，使我们的模型能够在每次对话回合期间关注对话的整个多模式历史。之前框架中用的是GRU，后者必须系统地整合来自不同模态的特征，并将历史信息整合到低维特征向量中。
使用多模态Transformer比RNN类方法更加灵活。