论文地址:https://arxiv.org/pdf/1901.07973.pdf
Git地址:https://github.com/switchablenorms/DeepFashion2
《DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images》是2019年发表在cs.CV上的一篇论文,可译为:服装图像检测、姿态估计、分割和再识别的通用基准,它是DeepFashion的升级版。
DeepFashion发布之后就被用作很多研究及论文常用的标准数据集,但它仍存在一些问题,比如一张图中只标注一种服装,没有像素级的服装标注,每个服装类型都使用相同的keypoint描述。DeepFashion改进了以上问题,并进一步增加了数据集,并以Mask R-CNN为基础,实现了服装目标检测、姿态估计、图片分割、检索四种典型应用,作为在该数据集上的baseline。
DeepFashion2包括13个类别491K图片801K服装实例(一个图片中包含两种实例,如上衣和裤子)。每个图片描述包含比例(在图中占比)、遮挡与否,大小(是否出界),视角(是/否人穿,正/测面),边框,更精细的landmark,以及像素级的mask;同样剪裁、图案、样式的被分为一组,数据被分成43.8K组。图片包括用户图片和网店商品图片,指向同一商品的被认为一个pair,数据集包含873K pair,是DeepFashion的3.5倍。
DeepFashion2与DeepFashion对比效果如下图所示:

下图是DeepFashion2与之前多个数据集的数据对比:

DeepFashion2对于不同的类别,定义了不同的landmark,每均landmark含 23个关键点,高于DeepFashion的4-8个关键点。

构建数据集
DeepFashion2数据来源于DeepFashion和网络,DeepFashion中的所有商品/用户配对图片都被加入进来,其它图片被移除;又从网络抓取了更多的商品/用户配对图片。人工标注清除了遮挡严重、分辨率低、以及过小的图片。
图片的丰富性如下图所示:

其中Scale指服装占图片的比例,Occlusion指遮挡情况,Zoom-in展示是否出边,Viewpoint展示角度。
数据标注
DeepFashion有50种分类,但其中一半以上的分类占比不到千分之五,且一些分类具有二义性。DeepFashion将它们整理为无二义性,且实例大致均衡的13个类别,如下图所示:

由于不同类别有不同形式的扭曲,对每个种类定义了它相对的姿势,即lardmark轮廓和骨架的相互作用(如改进了对“吊带”的描述效果)。用半自动方式建立mask:首先用算法根据轮廓标注,然后人工调整。
构建模型
模型由三部分组成:提取特征的FN,感知网络PN,相似度网络MN。用同一网络解决上述四类问题。

模型输入是I1,I2两张图片,在第一阶段将两张图片分别送入FN网络提取特征,FN的底层模型是ResNet50,模型提取出FPN特征,然后用RoIAlign提取每一个感兴趣区域的FPN,并对后期不同目标提取金字塔不同层次的特征。
第二阶段,将特征送入感知网络,感知网络的三个分枝分别实现了landmark关键点标注,定位服装所在框box对框中内容分类class,以及像素级的图像分割mask。
第三阶段,将提取的特征送入相似度网络MN,特征提取层经过训练,对服装图像可拥有良好的表征能力,MN网络由substract、square和一个全连接层组成(计算距离),用于对比两张图像是否匹配。
目标函数
优化的目标函数是以上各种目标的组合:

通过系数λ控制各个误差的权重,其中相似度误差计算方法如下:

当两张同片属于同一商品时yi为1,否则为0。对于不同的目标,选择RoI的条件也各不相同。在检索时,取具有最高置信度的服装区域作为待查询的实例。
模型效果
论文中分别测试各种角度和各种遮挡程度的实全,在目标检测中的效果如下:

实验得出了很多实用性的结果:在目标检测方面,合适的比例、较小的遮挡、不超出边界,以及正面,人穿等情况下,都取得了更好的效果。在比例方面主体占比90%以上,或者2%以下都更容易发生错误;非人穿的效果较差;测面和背面识别也相对困难。在landmark标注、图像分割和检索也有类似的结果。
图像检索效果如下图所示:

图中横坐标为检索到的top-1到top-20的情况,左图为使用模型检测到的目标区域,右图为使用实际的目标区域,可以看到,最终加入类别和姿势后识别效果最好,甚至高于图像分割效果。这可能由于关键点检测具有更高的鲁棒性。具体数据如下图所示:

网友评论