DARK | 人体姿态估计通用trick

作者: yuanCruise | 来源:发表于2019-10-21 18:34 被阅读0次

https://arxiv.org/pdf/1910.06278.pdf

关键点标签编码（encoding）

训练人体姿态估计网络时，考虑到训练代价，通常会将将输入图片做降采样，在降采样后的分辨率上进行训练。为了网络能够以热度图为标签进行训练，需要将基于原图分辨率的关键点坐标，转换为降采样后分辨率下的关键点坐标。并利用高斯模糊进行转换成热度图。我们称这个过程称为坐标编码，从坐标点到热图。

关键点热度图解码（decoding）

为了预测关键点在原始图像坐标空间中的位置，在进行热图预测后，需要进行相应的分辨率恢复才能转换回原始坐标空间。我们称这个过程为坐标解码，从热图到坐标点。

现有的解码策略

很少有文章研究关键点的编码和解码过程，然而编码和解码的过程对最终结果的影响很多时候要比改变网络结构还要大。首先介绍下现有的各种主流人体关键点估计网络（比如Hourglass，Hrnet等）都在使用的解码策略。现有的解码策略是用于应对如下所述的固有缺陷的。

如上图a所示，现有的网络训练人体关键点时，受限于计算量等问题，会将人体从原始图像抠出来后进行降采样。如上图d所示，网络训练完后，为了将关键点恢复到原始分辨率下，需要对图像作扩大降采样倍率的操作。而正常情况下，我们将最终预测得到的热度图上的最大点坐标作为最终的关键点位置，然而由于降采样的存在，该过程存在量化误差。直白的说：热度图中最大的激活位置不是关键点的精确定位而是粗定位。现有的解码策略如下：