论文阅读_使用Attention模型实现交叉领域的图片搜索

作者: xieyan0811 | 来源:发表于2020-04-30 11:13 被阅读0次

论文地址：https://arxiv.org/pdf/1709.01784v1.pdf

《Cross-Domain Image Retrievalwith Attention Modeling》是2017年发表在cs.MM（Computer Science Multimedia）上的论文，其目标是优化针对商品的图片搜索。

概述

用手机拍照，并在网络上搜索对应商品已成为一种重要应用。手机照片和商品图片有很多差异。比如搜索衣服，网店的展示图片（shop domain）大多为专业拍摄，有的包含布景；而手机拍照（user domain）包含更多的背景噪声，角度和光线也有差异。如下图所示，左边两个为user domain。

在两个领域中有一些特征可共用，而另一些特征则有差异，论文中的方法通过共用底层的CNN网络学习通用特征，用独立的上层网络学习有差异的特征，从而生成Y型网络，上层网络各自实现Attention注意力特征提取。

对于数据库中的图片，可使用网页中的信息添加注意力标注，比如加入商品的文字说明；对于待检索图片，用户说明一般不典型，且包含很多噪声，因此，使用从数据库中的检索到的备选项来定位图片中的注意力区域。从而训练出更有效的注意力权重和图像表示方法。

构建网络

训练过程如下图所示：

图中o表示待检索图片，p表示正例，q表示反例。分别将o与p,q代入CNN网络提取图片特征Subnetwork I，然后进入Y型网络的两个分枝，分别提取诸如光线，噪声等商品和用户图片不同的信息Subnetwork II和Subnetwork III。下面分枝TagY-Net（tag-based attention）用于处理商品数据，将图像特征X_l与商品标注信息X^t结合，计算图片的注意力区域a Subnetwork IV；上面分枝CtxYNet（context-based attention）提取图片特征o_l后，与下分枝得到的商品图片整体描述（见上图中斜线）一起，代入模型，产生o的注意力区域a Subnetwork V，此时分别产生了，基于正例p的图片描述o^p和基于反例q的描述o^q。

误差函数

获取图片描述之后，将它们代入修改后的triplet loss，基础的triplet loss的输入是待检索图片，正例，反例三个输入，修改后变为o^P,o^q,p,q四个输入。

具体误差函数定义如下：

其中d()用于计算距离，α是一个边界值，换言之，误差函数惩罚了：

检索过程

在实际检索过程中，不可能将shop domain所有商品描述都代入user domain模型，因此，检索分为两步，第一步是设定一个固定的Attention值，计算与待检索图片最近似的topN个（论文中为256个）商品，然后再将topN代入最终模型精确计算注意力区域和图像表示。

评价函数

文中的评价函数公式如下：

其中Ｑ为检索的次数，hit(q,K)是在返回的前K个相似图片中是否包含正例，1为包含正例，0为不包含。

结果对比

与其它模型在DeepFashion数据集上对比效果如下图所示。

网友评论

本文标题：论文阅读_使用Attention模型实现交叉领域的图片搜索

本文链接：https://www.haomeiwen.com/subject/chczwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！