1.大赛简介
「背景」直播带货是淘宝连接商品和消费者的重要方式,买家在观看直播的过程对喜爱的商品进行购买。在单场直播中,主播常常会对成百上千的商品进行展示、试用和介绍,买家如果想购买正在讲解的商品,则需要在该直播关联的商品列表(包含成百上千个商品)中手动去挑选,非常影响用户的购买效率和用户体验。大赛希望选手能够通过商品识别的算法,根据直播视频的画面和主播的讲解,自动识别出当前讲解的商品,把对应的购买链接推荐给用户,将大大提升用户的购买体验。本赛题要求选手通过计算机视觉、自然语言处理等人工智能算法,把视频中正在讲解的商品识别出来,提升用户在淘宝直播中的购买体验。
「初赛数据」包含大量直播片段的视频库和一个包含大量商品的商品库,其中视频库中包含直播片段的视频帧和该时间段对应的主播讲解语音的文本,商品库中包含商品的多张展示图和对商品的文本描述。总结来说,分为图片库和视频库,两个库内均有图片标注和文本标注信息。
「评价标准」算法运行时间和F1 score。
2. 模型
在对服装检索相关论文进行阅读和整理后,最后选定使用Deepfashion2中的baseline模型Match R-CNN[2],选择原因是模型结构简单,其他服装检索模型开源代码较少,Match R-CNN复现难度较低,且后续可以使用Deepfashion2数据集进行预训练增强模型在淘宝直播数据集中的表现。原论文给的模型结构图如下:
Match R-CNN结构图。
Match R-CNN由三个模块组成:特征网络(FN),感知网络(PN)和匹配网络(MN)。简单来说就是Faster R-CNN的基础上衍生的模型。由于我们数据集只含有目标检测分支的标注数据,所以我们复现的模型在感知网络那块就只有检测分支,而且匹配网络的输入改为检测网络中ROIAlign得到的7x7x256特征图,而不是mask分支下的特征图。我们最后把模型重新整理后,其实主要就是两个网络的结合:目标检测网络 + 匹配网络
3. ROIAlign后特征图大小
前面也提到了,我们使用了7x7x256特征图而不是mask分支下的14x14x256的特征图。会影响结果吗?应该会影响的。因为特征图太小,其表征能力就弱,但特征图太大,特征相关性变高,会出现特征冗余。这块得结合实际实验结果来进行观察。
4. 特征提取
很多文章加入关注机制去提取特征,这样得到的特征可以减少冗余背景信息,并提取到更有价值的目标特征信息。另外,也有使用低层和高层特征进行融合,因为低层特征具有基础的特征信息,而高层特征语义更强,两者互补可能会对模型有更好的帮助。
此外,个人有个想法就是,将一段视频中10个frames的特征进行合并,另外将检索商品库抽取的特征重复4次后合并,之后将它们共同输入到匹配网络当中,这样能充分利用到同视频多帧切片的特征信息,使匹配模型考虑匹配度时更加全面些。
5. 损失函数
Match R-CNN使用二分类交叉熵计算损失,但现在服装检索主流损失是pair loss和triplet loss,因此Match R-CNN还具有很大的改进空间。
网友评论