RP2K
细粒度图像分类的大规模零售商品数据集
核心问题:用物体识别方法来识别货架上商品。
种类多、同类不同品类(或规格、角度)但外观相似、拍摄角度和光照差异大。
2000种SKU、真实零售商品、分级标注(根据形状等分成6、7类)。
Related
-
细粒度图像分类:
零售商品的识别是图像细粒度分类的领域问题,因为不同品牌、口味的商品人眼看起来很相似。
-
零售产品数据集:
1)RPC数据集有200类,8w+图片,由于每张图片中每个物体都提供了边界框和标签,因此可提供40w张单物体图像。但光照简单、背景干净,不是真实场景。
2)TGFS: 自主售货机真实场景图片,3w张图片只有24类,3大类,数据为480*640。
3)SKU-110K数据集:100w张图片,但只是密集场景中零售物体检测,只有边界框没有提供种类。
4)MVTEC:实例感知的语义分割数据集,60种,2.1w张图片,与RPC类似,只有受限的摄像头设置,种类少。
Dataset
-
组织:
用RetinaNet在辅助检测数据集上训练检测子,后人为筛选、标注每个边界框图
一般,每个裁剪出的边界框图有六个SKU属性。
种类标签有两种:一种是罐、瓶、袋等7种形状类别,另一种是通过非酒精饮料、调味品、化妆品等6种类别分类。
-
数据收集:
10个城市500多个不同商店收集得到,一个图片中心位置是架子,一个图片只有一个架子,每个图片至少3000*3000像素。
使用不同相机,采集到的单个目标大小至少80*80 -
统计:
共拍摄1.4w张高清货架图,单目标图像有53w+, 一共有2000个SKU, 平均每个SKU有267张图。
训练/测试集为0.85/0.15 -
辅助检测数据集:
抽出1400个货架图中的9.6万张图(7种形状类别)训练目标检测子。
衡量数据集
以上检测数据集用于衡量RP2K数据集,在分类任务上的效果。
使用MobileNet和inceptionV3作为分类。
四种训练方式——从头训练、预训练、带增强的从头训练和带增强的预训练——中,带有增强的预训练方式效果较好。
两千个商品排序(由多向少排列)、每十个聚集在一起,然后计算top1分类准确度,预测准确度随实例数减少而减低。
以上构成细粒度识别的长尾问题。
其他可能的研究问题
-
对抗攻击和防御
细粒度特征使得我们得到的数据集中两种类别的图像之间差异非常不明显,2000个的类别数比传统的imageNet和CIFAR/MNIST(防御算法基于的数据集),类别更多,防御问题就更富挑战。
-
结构图片上的生成模型
提供了真实的语义输出布局信息,用于生成模型
-
少样本学习
我们数据集的长尾效应提供了100多类实例数小于30个图片(一共有200大类),所以该数据集可以用于少量样本学习算法的评估。
Conclusion
货架产品识别任务激发下,提出零售产品识别数据集RP2K,可用于大量AI驱动的零售业的——图片检索、空货架检测和销售活动跟踪等等。
作为细粒度分类数据集,RP2K是最多种类的数据集,但种类中的实例数量递减。
数据集中有丰富的属性信息。
当前模型在识别系统中的改进可以有很大的提升空间,除目标识别外少样本学习、生成模型等也能用拿到次数据集。
网友评论