美文网首页
Pose Proposal Networks 论文解析

Pose Proposal Networks 论文解析

作者: LaLa_2539 | 来源:发表于2018-09-19 19:05 被阅读0次

    简介

    首先附上论文地址:Pose Proposal Networks
    作者:日本柯尼卡美能达公司的関井大気(Taiki SEKII)
    文章结合了 YOLO 和 CMU 的 OpenPose,实现了近200帧的多人实时姿态估计

    Experimental results on the MPII Multi-Person benchmark confirm that our method achieves 72.8% mAP comparable to state-of-the-art bottom-up approaches while its total runtime using a GeForce GTX1080Ti card reaches up to 5.6 ms (180 FPS)


    文章亮点 —— pose proposal network (PPN)

    采用了YOLO目标检测的思想,将人体姿态检测看作是一个目标检测问题,对人体部位不再采用 pixel-wise(像素级别) 的检测,而是采用 grid-wise(网格级别) 来得到人体部位的feature map,其中利用一个 single-shot CNN 网络同时对身体关节和肢体(limb)来进行检测,然后采用类似OpenPose中的PAF分析方法来得到完整的人体姿态

    PPN Fig1.png

    本文之所以能够达到如此流畅的速度,就是因为采用了YOLO的检测方法,这里简单介绍一下YOLO算法的思想

    YOLO整体思想:将输入图片分成 S×Sgrid(网格) ,每个网格预测 Bbounding boxes和这些网格的 confidence scores ,每个 bounding boxes 包含5个预测值 : x,y,w,hconfidence ,同时每个 grid cell 又会预测 C(所有类别数) 个目标在当前gird cell中的概率

    YOLO Fig2.png

    经过特殊设计的Loss函数:

    YOLO Loss.png

    Pose Proposal Networks

    Body Parts Detection(身体关节点检测)

    PPN Fig2.png

    首先将输入图像分割为H×W个 grid cell ,生成一系列的 bounding boxes :   
         \lbrace {B^i_k}\rbrace_{k\in {\cal K}} = \lbrace p(R|k,i), p(I|R, k, i), o^i_{x, k} , o^i_{y, k} , w^i_k , h^i_k \rbrace
                i\in G = \lbrace 1, ..., H\times W\rbrace    
                  {\cal K} = \lbrace 0, 1,..., K \rbrace

    \lbrace {B^i_k}\rbrace_{k\in {\cal K}} —— 预测的一系列 Regional Proposal ( i 个grid cell 对 k+1 个parts进行预测)
    i —— gird cell 的个数
    {\cal K}—— 要检测的目标数,K is the number of parts, k = 0 代表一个完整的人
    R, I —— 二进制随机变量
    p(R|k,i) —— grid cell i 负责检测肢体部位k的概率, 如果ground truth bounding box of k 的中心落在第i个grid cell中,则第i个grid cell就负责k肢体的检测
    p(I|R, k, i) —— 第i个cell预测的第k个bounding box与ground truth的 IoU
    (o^i_{x, k}, o^i_{y, k}) —— bounding box的中心相对于grid cell的边界的距离,并根据对应网格归一化[0-1]之间
    w^i_k , h^i_k —— bounding box的宽、高,根据图像的尺寸归一化[0-1]之间


    Limbs Detection(肢体部位检测)

    同时每个grid cell也会对肢体(limbs)进行检测:

    PPN Fig34.png

    C_{k_{1}k_{2}} = {\lbrace p(C|k_1, k_2, x, x + \Delta x) \rbrace}_{\Delta x \in \chi }
    \chi = \lbrace \Delta x = (\Delta x, \Delta y) | |\Delta x| \leq W^\prime \wedge |\Delta y| \leq H^\prime\rbrace

    {\lbrace C_{k_{1}k_{2}} \rbrace}_{(k_1, k_2) \in \cal L} —— \cal L 代表能被检测到的肢体,C_{k_{1}k_{2}}表示关节k_1k_2的连接是肢体的概率
    C —— 二进制随机变量
    x —— 第i个grid cell的位置
    H^\prime \ \ W^\prime —— 文中假设位于x的肢体仅能到达以x为中心的H^\prime \times W^\prime 区域

    Loss函数设计:

    PPN Loss.png

    \delta^i_k —— 第i个单元格是否负责第k个part的检测 (0,1)变量

    最终,CNN输出H\times W \times \lbrace 6(K \ + \ 1) \ + \ H^\prime W^\prime|\cal L|\rbrace维张量,6代表\lbrace {B^i_k}\rbrace_{k\in {\cal K}}的6个参数,(K\ +\ 1)前面提到过

    相关文章

      网友评论

          本文标题:Pose Proposal Networks 论文解析

          本文链接:https://www.haomeiwen.com/subject/hquinftx.html