简介
首先附上论文地址:Pose Proposal Networks
作者:日本柯尼卡美能达公司的関井大気(Taiki SEKII)
文章结合了 YOLO 和 CMU 的 OpenPose,实现了近200帧的多人实时姿态估计
Experimental results on the MPII Multi-Person benchmark confirm that our method achieves 72.8% mAP comparable to state-of-the-art bottom-up approaches while its total runtime using a GeForce GTX1080Ti card reaches up to 5.6 ms (180 FPS)
文章亮点 —— pose proposal network (PPN)
采用了YOLO目标检测的思想,将人体姿态检测看作是一个目标检测问题,对人体部位不再采用 pixel-wise(像素级别) 的检测,而是采用 grid-wise(网格级别) 来得到人体部位的feature map,其中利用一个 single-shot CNN 网络同时对身体关节和肢体(limb)来进行检测,然后采用类似OpenPose中的PAF分析方法来得到完整的人体姿态
本文之所以能够达到如此流畅的速度,就是因为采用了YOLO的检测方法,这里简单介绍一下YOLO算法的思想
YOLO整体思想:将输入图片分成 S×S 个 grid(网格) ,每个网格预测 B 个 bounding boxes和这些网格的 confidence scores ,每个 bounding boxes 包含5个预测值 : 和 ,同时每个 grid cell 又会预测 (所有类别数) 个目标在当前gird cell中的概率
YOLO Fig2.png经过特殊设计的Loss函数:
YOLO Loss.pngPose Proposal Networks
Body Parts Detection(身体关节点检测)
PPN Fig2.png首先将输入图像分割为个 grid cell ,生成一系列的 bounding boxes :
—— 预测的一系列 Regional Proposal ( i 个grid cell 对 k+1 个parts进行预测)
—— gird cell 的个数
—— 要检测的目标数, is the number of parts, 代表一个完整的人
—— 二进制随机变量
—— grid cell 负责检测肢体部位的概率, 如果ground truth bounding box of k 的中心落在第个grid cell中,则第个grid cell就负责肢体的检测
—— 第个cell预测的第个bounding box与ground truth的 IoU
—— bounding box的中心相对于grid cell的边界的距离,并根据对应网格归一化[0-1]之间
—— bounding box的宽、高,根据图像的尺寸归一化[0-1]之间
Limbs Detection(肢体部位检测)
同时每个grid cell也会对肢体(limbs)进行检测:
PPN Fig34.png
—— 代表能被检测到的肢体,表示关节的连接是肢体的概率
—— 二进制随机变量
—— 第个grid cell的位置
—— 文中假设位于的肢体仅能到达以为中心的 区域
Loss函数设计:
PPN Loss.png—— 第个单元格是否负责第个part的检测 (0,1)变量
最终,CNN输出维张量,6代表的6个参数,前面提到过
网友评论