美文网首页
论文阅读_使用Attention模型实现交叉领域的图片搜索

论文阅读_使用Attention模型实现交叉领域的图片搜索

作者: xieyan0811 | 来源:发表于2020-04-30 11:13 被阅读0次

    论文地址:https://arxiv.org/pdf/1709.01784v1.pdf

    《Cross-Domain Image Retrievalwith Attention Modeling》是2017年发表在cs.MM(Computer Science Multimedia)上的论文,其目标是优化针对商品的图片搜索。

    概述

    用手机拍照,并在网络上搜索对应商品已成为一种重要应用。手机照片和商品图片有很多差异。比如搜索衣服,网店的展示图片(shop domain)大多为专业拍摄,有的包含布景;而手机拍照(user domain)包含更多的背景噪声,角度和光线也有差异。如下图所示,左边两个为user domain。

    在两个领域中有一些特征可共用,而另一些特征则有差异,论文中的方法通过共用底层的CNN网络学习通用特征,用独立的上层网络学习有差异的特征,从而生成Y型网络,上层网络各自实现Attention注意力特征提取。

    对于数据库中的图片,可使用网页中的信息添加注意力标注,比如加入商品的文字说明;对于待检索图片,用户说明一般不典型,且包含很多噪声,因此,使用从数据库中的检索到的备选项来定位图片中的注意力区域。从而训练出更有效的注意力权重和图像表示方法。

    构建网络

    训练过程如下图所示:

    图中o表示待检索图片,p表示正例,q表示反例。分别将o与p,q代入CNN网络提取图片特征Subnetwork I,然后进入Y型网络的两个分枝,分别提取诸如光线,噪声等商品和用户图片不同的信息Subnetwork II和Subnetwork III。下面分枝TagY-Net(tag-based attention)用于处理商品数据,将图像特征Xl与商品标注信息Xt结合,计算图片的注意力区域a Subnetwork IV;上面分枝CtxYNet(context-based attention)提取图片特征ol后,与下分枝得到的商品图片整体描述(见上图中斜线)一起,代入模型,产生o的注意力区域a Subnetwork V,此时分别产生了,基于正例p的图片描述op和基于反例q的描述oq

    误差函数

    获取图片描述之后,将它们代入修改后的triplet loss,基础的triplet loss的输入是待检索图片,正例,反例三个输入,修改后变为oP,oq,p,q四个输入。

    具体误差函数定义如下:

    其中d()用于计算距离,α是一个边界值,换言之,误差函数惩罚了:

    检索过程

    在实际检索过程中,不可能将shop domain所有商品描述都代入user domain模型,因此,检索分为两步,第一步是设定一个固定的Attention值,计算与待检索图片最近似的topN个(论文中为256个)商品,然后再将topN代入最终模型精确计算注意力区域和图像表示。

    评价函数

    文中的评价函数公式如下:

    其中Q为检索的次数,hit(q,K)是在返回的前K个相似图片中是否包含正例,1为包含正例,0为不包含。

    结果对比

    与其它模型在DeepFashion数据集上对比效果如下图所示。

    相关文章

      网友评论

          本文标题:论文阅读_使用Attention模型实现交叉领域的图片搜索

          本文链接:https://www.haomeiwen.com/subject/chczwhtx.html