美文网首页工作生活
Learning Pose Specific Represent

Learning Pose Specific Represent

作者: 中了胖毒 | 来源:发表于2019-07-02 16:58 被阅读0次

文章链接

摘要

​ 若已知手部一系列参数(骨骼、尺寸、外形等),那么给定某个手势一个视角的图片,是可以推测该手势另一个视角的图片的。反之,基于两个视角的图片,可以推理出手部的一系列参数。论文基于这一观点,设计网络,使用同手势双视角图片对来训练网络,网络接收一个视角图片为输入,预测一组隐藏参数,再基于这组参数预测输出另一个视角的图片作Loss。这组隐藏参数相当于对手部参数化,并且这组参数是特定于手势的。而全过程无需标注关节点数据。

介绍

  1. \theta 表示某个手势的参数,给定i(j)视角的手势图片x^{(i)}(x^{(j)})存在一个映射g_i^{*},使得:

    \theta = f_i^*(x^{(i)}) = f_j^*(x^{(j)})

    虽然是不同视角的图片,但是同手势,所以手势参数是相同的。

  2. 反之,基于一组手势参数\theta,也应存在逆映射g_i^*,使得:

    x^{(i)} = g_i^*(\theta)

    x^{j} = g_j^*(\theta)

  3. 所以基于同手势双视角图片对,有:

    x^{(j)} = g_j^*(f_i^*(x^{(i)}))

    如果i和j相同(即同一图片),那么上述就是一个自编码器,这在当前情况下很难学习手势信息,所以在本文中i \neq j

关键

  1. 编码-解码结构

    本文仍然使用了基于CNN的编码-解码器结构,f_i为编码器,g_j为解码器。f_i接收x^(i)为输入,输出隐藏参数\thetag_j接收\theta为输入,生成另一个视角的图片

  2. 损失函数

其中\scr L_{recon}L_1距离

  1. 网络结构

需要使用3D关节点标注数据训练g_l,完成手势隐藏参数到3D坐标的映射。

  1. 半监督训练

用有标注和无标注同时训练网路。当使用标注数据时,\lambda_1置为0

其中


相关文章

网友评论

    本文标题:Learning Pose Specific Represent

    本文链接:https://www.haomeiwen.com/subject/fykthctx.html