美文网首页
论文阅读_DeepFashion2

论文阅读_DeepFashion2

作者: xieyan0811 | 来源:发表于2020-05-04 13:50 被阅读0次

论文地址:https://arxiv.org/pdf/1901.07973.pdf
Git地址:https://github.com/switchablenorms/DeepFashion2

《DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images》是2019年发表在cs.CV上的一篇论文,可译为:服装图像检测、姿态估计、分割和再识别的通用基准,它是DeepFashion的升级版。

DeepFashion发布之后就被用作很多研究及论文常用的标准数据集,但它仍存在一些问题,比如一张图中只标注一种服装,没有像素级的服装标注,每个服装类型都使用相同的keypoint描述。DeepFashion改进了以上问题,并进一步增加了数据集,并以Mask R-CNN为基础,实现了服装目标检测、姿态估计、图片分割、检索四种典型应用,作为在该数据集上的baseline。

DeepFashion2包括13个类别491K图片801K服装实例(一个图片中包含两种实例,如上衣和裤子)。每个图片描述包含比例(在图中占比)、遮挡与否,大小(是否出界),视角(是/否人穿,正/测面),边框,更精细的landmark,以及像素级的mask;同样剪裁、图案、样式的被分为一组,数据被分成43.8K组。图片包括用户图片和网店商品图片,指向同一商品的被认为一个pair,数据集包含873K pair,是DeepFashion的3.5倍。

DeepFashion2与DeepFashion对比效果如下图所示:

下图是DeepFashion2与之前多个数据集的数据对比:

DeepFashion2对于不同的类别,定义了不同的landmark,每均landmark含 23个关键点,高于DeepFashion的4-8个关键点。

构建数据集

DeepFashion2数据来源于DeepFashion和网络,DeepFashion中的所有商品/用户配对图片都被加入进来,其它图片被移除;又从网络抓取了更多的商品/用户配对图片。人工标注清除了遮挡严重、分辨率低、以及过小的图片。

图片的丰富性如下图所示:

其中Scale指服装占图片的比例,Occlusion指遮挡情况,Zoom-in展示是否出边,Viewpoint展示角度。

数据标注

DeepFashion有50种分类,但其中一半以上的分类占比不到千分之五,且一些分类具有二义性。DeepFashion将它们整理为无二义性,且实例大致均衡的13个类别,如下图所示:

由于不同类别有不同形式的扭曲,对每个种类定义了它相对的姿势,即lardmark轮廓和骨架的相互作用(如改进了对“吊带”的描述效果)。用半自动方式建立mask:首先用算法根据轮廓标注,然后人工调整。

构建模型

模型由三部分组成:提取特征的FN,感知网络PN,相似度网络MN。用同一网络解决上述四类问题。

模型输入是I1,I2两张图片,在第一阶段将两张图片分别送入FN网络提取特征,FN的底层模型是ResNet50,模型提取出FPN特征,然后用RoIAlign提取每一个感兴趣区域的FPN,并对后期不同目标提取金字塔不同层次的特征。

第二阶段,将特征送入感知网络,感知网络的三个分枝分别实现了landmark关键点标注,定位服装所在框box对框中内容分类class,以及像素级的图像分割mask。

第三阶段,将提取的特征送入相似度网络MN,特征提取层经过训练,对服装图像可拥有良好的表征能力,MN网络由substract、square和一个全连接层组成(计算距离),用于对比两张图像是否匹配。

目标函数

优化的目标函数是以上各种目标的组合:

通过系数λ控制各个误差的权重,其中相似度误差计算方法如下:

当两张同片属于同一商品时yi为1,否则为0。对于不同的目标,选择RoI的条件也各不相同。在检索时,取具有最高置信度的服装区域作为待查询的实例。

模型效果

论文中分别测试各种角度和各种遮挡程度的实全,在目标检测中的效果如下:

实验得出了很多实用性的结果:在目标检测方面,合适的比例、较小的遮挡、不超出边界,以及正面,人穿等情况下,都取得了更好的效果。在比例方面主体占比90%以上,或者2%以下都更容易发生错误;非人穿的效果较差;测面和背面识别也相对困难。在landmark标注、图像分割和检索也有类似的结果。

图像检索效果如下图所示:

图中横坐标为检索到的top-1到top-20的情况,左图为使用模型检测到的目标区域,右图为使用实际的目标区域,可以看到,最终加入类别和姿势后识别效果最好,甚至高于图像分割效果。这可能由于关键点检测具有更高的鲁棒性。具体数据如下图所示:

相关文章

  • 论文阅读_DeepFashion2

    论文地址:https://arxiv.org/pdf/1901.07973.pdfGit地址:https://gi...

  • 【CV论文笔记】DeepFashion2数据集介绍

    本文主要用于介绍香港中文大学推出的用于服装时尚界领域的DeepFashion数据集。本笔记主要为记录该数据集的调研...

  • 论文阅读

    2013 NIPS - More Effective Distributed ML via a Stale Syn...

  • 论文阅读

    三年的研究生生活还是没有形成一个个人的论文阅读体系。主要还是论文太多,每年的论文更新数量远远超过个人阅读能力,...

  • 论文阅读

    郑宇多任务 TKDE 2019 同一数据从不同角度挖掘有用信息,作者搭建了基于参数硬共享的双任务深度学习模型,学习...

  • 阅读论文

    Attention-Fused Deep Matching Network for NLI(Natural Lan...

  • 论文阅读

    exploration transform a stable exploring algorithm for ro...

  • 论文阅读

    近日来阅读了不少文章,也算是体会到了渐入佳境的感觉。 我个人感觉,学术可能就是80%的苦读钻研,15%的综合比较,...

  • 【语文教学】议论文阅读之如何找出议论文的论点

    议论文阅读之如何找出议论文的论点 给初中生阅读的议论文必须规范,但规范的议论文似乎又有答题的规律可循,造成阅读难度...

  • Iforest

    论文:Iforest阅读中

网友评论

      本文标题:论文阅读_DeepFashion2

      本文链接:https://www.haomeiwen.com/subject/zroeghtx.html