这是一篇比较经典的人体姿态识别的文章,以下简单介绍一下其重大的改进。
整篇论文的基调在于一个关节点位置的回归,使用DNN对人体关节节点位置进行定位。因为CNN网络对于图像大小的限定,而且对于多个关节点直接使用MSE的方式进行梯度下降,求解最优。但此种方法检测关节点的定位精确度不是很高。所以作者,在此提出现在一整幅图像上进行粗略的姿态估计,然后又多个DNN-Based回归器对关节点的领域子图像进行优化预测。
简单来说,这是一个同一个网络架构,多个网络模型的框架。可如下表示:
我们对其进行一个大致的抽象化:
对于其中每一个,θ参数,我们相当于都是训练了一整个网络(有监督的方式)。
对于上述方式,总结的数据公式:
y' = N^(−1)(ψ(N(x);θ))
其中y'为prediction,N代表normalization,ψ代表网络,θ为network的parameters,x为input image
P.S: 在参考项目5中,对于这个挖掘出来的点信息,如何设定其领域范围。该项目的做法是如此的,它假定一个人体大小的区域范围为,左右肩到左右膝盖的距离。根据这个距离相当于是一个人体矩形框的大小,通过如此来设定这个截取框的范围大小。
除此之外,另外要提及该论文,作者为了消除图片中的绝对位置带来的影响,作者将其改为了相对位置。(在参考资料项目5中,使用的是先检测人脸的位置,将所有坐标点根据人脸做一个相对位置的处理;而在参考资料1中则是选用原始图片的中心点信息)
总结:该论文主要运用了图片的相对位置以及级联回归的方式,将CNN网络运用于人体的姿态识别。这两种思想对后续的操作都产生了一定的影响。
【参考博客资料及论文】
- https://github.com/mitmul/deeppose 【项目,不过只提供 stage-1 的做法】
- https://blog.csdn.net/sky_asher/article/details/80187726
- https://arxiv.org/abs/1312.4659 【原论文】
- https://zhuanlan.zhihu.com/p/35696429
- https://github.com/takiyu/DeepPose 【项目2,提供了 stage-2 的做法,不过做的比较复杂】
网友评论