概述
一、 挑战:视频姿态估计中保持短时间结果一致问题
二、 方法概述:通过结构化的空间学习和中间估计的方法来保证视频估计结果的前后一致性
(1) 提出一种两个分支,三个阶段的网络,能够有效的估计姿态并捕捉temporal信息用于增加准确度
(2) 提出spatial model和temporal model两种用于优化spatial和temporal consistency的数据特征
(3) 提出一种新的halfway temporal evaluation方法
Basic Multi-class Classifiers Module
video network.png首先是对关节点的预测,采用的方法与OpenPose相同,都是放置高斯响应得到回归的分数,损失函数也相同,采用欧氏距离来计算
space learning.png提出了一种空间结构学习的方法,通过结构树来学习人体各个关节点之间的空间特征,其中,A是通过卷积得到的原始特征图,然后从A_7 A_8 A_{13} A_{14}向上推出其他关节点的feature map
Structured Space Learning and Halfway Temporal Evaluation
R1 R2 R3.png把握一个要点:相邻几帧的图像差异应该是较小的,因此选取邻近3帧图像与当前帧进行融合(经过实验,选择大于3帧对预测的准确度提升不大,但却影响实时性,综上选择邻近3帧图像进行分析)
R = (\mu_1R_1)\bigotimes(\mu_2R_2)\bigotimes(\mu_3R_3)
结果分析
准确度较高,但是实时性太差,帧数为0.2FPS
网友评论