The Devil is in the Details: Delving into Unbiased Data Processing
for Human Pose Estimation
github地址
1.使用连续度量标准
数据转换是指在不同的坐标系之间对关键点位置进行裁剪、旋转、调整大小、翻转等操作的转换。现有的姿态估计方法都是在离散空间中利用像素来测量图像的大小。而利用离散的像素点作为度量,其实是对连续图像空间的采样。当在推理过程中执行标准翻转策略时,使用像素作为度量将显著降低性能。而降低性能的主要原因为,离散的度量方式遇到图像水平翻转增强时存在固有的偏差。
如下图上半部分所示,因为在关键点预测领域中最终的输出热度图通常是输入图像的4分之1大小(下图中是2分之1)。而正因为这种对原始图像缩小之后在进行预测的方式,结合离散度量法。从而导致遇到翻转操作时,会存在一点偏差。而且降采样和翻转操作又是关键点训练任务中必不可少的操作。
基于此本文提出了一个简单且高效的方案,即提出了一种连续的度量标准。具体来说,采用单位长度作为图像尺寸测量标准,定义为特定空间中相邻像素之间的距离。从而抑制这种由于离散度量的方式而导致的定位偏差。
2.新编解码过程
但上述的所有的分析都是基于在保证关键点位置与热图的编解码过程准确的前提下进行的。然而在标准的方法中该编解码过程是存在固有误差的。
标准编码过程
:
由于热度图是由输入图像降采样得到的,因此在制作标签热度图时,会存在需要对标签坐标进行降采样从而存在一个量化过程。下述公式中m,n
表示小数值,mq,nq
表示四舍五入后的值,R
表示的是四舍五入操作。最终对量化后的关键点进行高斯模糊得到关键点标签图。
标准解码过程
:
通过网络输出得到预测热度图H
,在预测热度图上获取做大响应对应的坐标点m^q,n^q
。由于标签坐标m,n
是浮点数,因此以m^q,m
来举例,理想情况下若预测的完全准确,则两者之间的关系如公式19所示,存在两种情况。
基于上述由于浮点数四舍五入而导致这种预测存在固有误差,且如下表所示,这种固有误差的数学期望是0.25。
为了减少这个误差,根据响应的梯度,在每个方向上移动0.25倍的单位长度。如下公式20所示,最终的预测结果为m^
,利用这种方法可使得最终的期望降低为0.125。且根据公式22可知,如果降采样倍率固定的情况下,输入分辨率越高,期望误差越小。
新编码过程
:
如下图所示,每个关键点的坐标使用圆形区域进行标注,而不是之前的高斯滤波的方式。且配合两个偏置map图。
新解码过程
:
在解码过程中,我们首先使用高斯核K对热图进行滤波,使其最高响应位于地面真值点附近。且高斯核如公式28所示。最终的坐标值还需要利用偏置进行反算,公式如29所示。全新的基于偏移量的编解码方法,其误差期望值为零。
3.结果展示
如下图所示,本文提出的无偏数据处理(UDP),可以嵌入到当前最好的几个人体关键点检测算法中。在基本不增加计算量的前提下,实现了平均1.5AP的效果提升。
网友评论