摘要:
行人重识别领域中,通常认为的挑战是不同摄像头拍摄的图片在视角、行人姿态、光照、背景、分辨率等视觉因素方面的巨大差异造成准确率不高。但是,现下只是认为这些因素会影响识别精度,并没有定量的研究说明这些因素会怎样影响一个 re-ID 系统的识别精度。这篇文章就尝试从视角的角度去分析,摄像头视角的不同是怎么影响行人重识别精度的。因而标题是from the viewpoint of viewpoint. 论文的主要贡献是基于 unity 提出了一个包含1266个3d人体模型的灵活的合成数据引擎,可以随意调节参数合成各种行人图片;另一个是定量分析了摄像头角度对于re-ID准确率的影响。
PersonX 引擎
PersonX 是基于 unity 开发而成,包含1266个精心设计的3d人体模型,其中有547个女性、719个男性。为了保证多样性,PersonX系统开发人员手工设计了不同的年龄、肤色、体型、发型的人体模型,衣服有牛仔裤、长裤、短裤、裙子、T恤等,行人的动作则有走路、跑步、站立、对话等等。而论文所使用的场景则是从unity 的 Asset Store中购买的。这是一个较为自由的行人图片合成系统,所有的视觉变量都可以编辑。
PersonX 系统的数据采样
视角的定义
论文中使用的视角主要是指脸部方向相对于 0° 视角转动的度数。
同一行人在同一个行走姿态下,不同视角的图片
PersonX 数据集验证
论文用IDE+1,Triplet Loss,PCB 三种方法分别在Market,Duke,还有合成的PersonX数据集上训练测试,用以验证合成数据集的有效性。
从实验结果可以看到,三种方法在PersonX上的效果非常好,因为合成的数据集分辨率比较高,人物比较完整,环境的障碍也比较少。
验证视角对Re-ID准确度的影响
论文在这一部分主要探索了3个问题,摄像头视角在训练集,query 集和 gallery 集是怎么影响re-ID性能的。这一部分的实验都是基于PCB 方法。
1)训练集中的不同摄像头角度对Re-ID准确度的影响
实验设置:
实验设置
原始数据集包括了训练集和测试集中所有人物的36个角度的图片。在这部分实验中,作者从训练集里选择性的删除(或替换)了一些视角的照片,从而分析缺失的视角对于Re-ID的影响。CG表示对每个id随机删除一些角度下的数据,EG表示对每个id删除连续的角度下的数据,删除的连续视角可能是左侧视图、右侧视图、正面视图和背面视图。上图中的白色部分即为删除的数据。
实验结果:
实验结果
有意思的是,仔细看上表中加粗的行,会发现,在3个对比实验中,受伤的都是front和back视角。无论是删除front或back视角(3/4中),还是保留front和back视角(2/4,1/4中),对应的mAP都是最低的。在保留1/4训练集的实验中,只保留front视角或back视角的mAP明显比只保留left或right视角的mAP要低。论文中并没有解释这一点。这与我们一般人的想法可能有点冲突,因为一般会认为正面和背面提供的信息比侧面提供的信息要多。
论文在这一部分的结论是:
Missing viewpoint compromises training.
Missing continuous viewpoints are more detrimental than missing randomly viewpoints.
When limited training viewpoints are available,models can be better trained when left / right viewpoints are in training set than front/back viewpoints.
2)query set中的不同摄像头角度对Re-ID准确度的影响
实验使用left(0°),front(90°),right(180°),back(270°)四个角度的图片做训练,然后分别用四个角度做query,gallery则从0°到350°变化。
论文在这一部分的结论是
Query viewpoint of left / right generally yields higher re-ID accuracy than front / back viewpoints.
3)gallery set中的不同摄像头角度对Re-ID准确度的影响
论文在这一部分的结论是
Sometimes true matches whose viewpoints are dissimilar to the query are harder to be retrieved than false matches with a similar viewpoint.
The above problem gets more severe when the environment is less ideal, e.g., complex background, extreme illumination, and low resolution.
原文戳此
原文代码
citation:
@article{DBLP:journals/corr/abs-1812-02162,
author = {Xiaoxiao Sun and Liang Zheng},
title = {Dissecting Person Re-identification from the Viewpoint of Viewpoint},
journal = {CoRR},
volume = {abs/1812.02162},
year = {2018}
}
网友评论