概述

一、挑战：视频姿态估计中保持短时间结果一致问题

二、方法概述：通过结构化的空间学习和中间估计的方法来保证视频估计结果的前后一致性

(1) 提出一种两个分支，三个阶段的网络，能够有效的估计姿态并捕捉temporal信息用于增加准确度
(2) 提出spatial model和temporal model两种用于优化spatial和temporal consistency的数据特征
(3) 提出一种新的halfway temporal evaluation方法

Basic Multi-class Classifiers Module

首先是对关节点的预测，采用的方法与OpenPose相同，都是放置高斯响应得到回归的分数，损失函数也相同，采用欧氏距离来计算

video network.png

提出了一种空间结构学习的方法，通过结构树来学习人体各个关节点之间的空间特征，其中，A是通过卷积得到的原始特征图，然后从 $A_7$ $A_8$ $A_{13}$ $A_{14}$ 向上推出其他关节点的feature map

space learning.png

Structured Space Learning and Halfway Temporal Evaluation

把握一个要点：相邻几帧的图像差异应该是较小的，因此选取邻近3帧图像与当前帧进行融合（经过实验，选择大于3帧对预测的准确度提升不大，但却影响实时性，综上选择邻近3帧图像进行分析）
　　　　　　　　　　　　　　　　　 $R = (\mu_1R_1)\bigotimes(\mu_2R_2)\bigotimes(\mu_3R_3)$