Point-to-Pose Voting based Hand

Point-to-Pose Voting based Hand

作者: 中了胖毒 | 来源:发表于2019-07-02 16:57 被阅读0次

摘要

近年来，基于三维输入数据的手部姿态估计方法显示出最先进的性能，因为三维数据比深度捕捉更多的空间信息。而基于三维体素的方法需要大量计算量，基于PointNet的方法需要冗长的预处理步骤，如计算曲面法线向量，分组时使用k-最近邻搜索。
本文提出了一种新的基于无序点云的手势估计方法。采用1024个三维点作为输入，不需要额外的信息。本文以置换等变层(PEL)为基本单元，提出一个PEL版本的ResNet用于手势识别任务。此外，还提出了一个基于投票的方案(Voting-Based Scheme)，合并各个点的信息用于最终手势预测。

关键

预处理
1. 将深度图像素转换为3D点云
2. 归一化视角
  - 问题：观察视角不同得到的点云也不同 —> 同一个手势对应多种输入
  - 解决：把质心旋转到z轴上
    
    如上图所示，点 $c=(c_x, c_y, c_z)$ 第一次旋转 $-\alpha_y$ 到yOz平面为 $\tilde{c}=(\tilde{c_x},\tilde{c_z},\tilde{c_z})$ ，再次旋转 $-\alpha_x$ 使得该点位于z轴上，最终得到 $c^{''}=(0,0,c^{''}_z)$
  - 形式化描述
Permutation Equivariant Layers(PEL)置换等变层

PEL接受点云 $x \in \mathbb{R}^{N\times K_{in}}$ 作为输入，为每个点独立计算特征,输出 $x^{'} \in \mathbb{R}^{N\times K_{out}}$

$K_{in}, K_{out}$ 输入输出特征为度， N为点数, $x_{max}$ 为N个点中在各个维度上出现的最大值 $x_{max} \in \mathbb{R}^{K_{in}}$

即x的每一维 $x_i$ 乘以权值 $\lambda_i$ ，x点集中i维出现过的最大值 $x_{max_i}$ 乘以权值 $\gamma_i$ ，二者相加，再乘以权值矩阵W，加上偏置项 $\beta_i$ ，非线性激活，得到最终输出 $x^{'}$

注意到权值 $\lambda$ 和 $\gamma$ 是共享的

因为每个点使用自己的输入特征和各个特征维度上的最大值计算自己的特征。所以PEL能处理无序数据，而且各个点在一定程度上相当于使用 $x_{max}$ 交换信息。

本文将PEL嵌入ResNet中提取点云特征，一共使用了27层PEL，网络结构如下

Point-to-Pose Voting

通过ResNet-PEL得到NxF维特征，每一行F维向量表示一个点的局部特征。使用Point-to-Pose voting方式估计关节点坐标，文章提出了分类和回归两种版本(回归效果更好)。
1. 回归
  - $G \in \mathbb{R}^{N\times J}$ 中元素 $G_{nj}$ 表示3D点n对于关节点j预测的贡献程度(置信水平)， $\hat y_{nj}$ 为网络输出的每个3D点预测的关节点j的坐标激励值
  - 根据每个3D点对每个关节点的贡献程度及自身估计的坐标激励值，综合归一化得到最终的估计值。
损失函数

结果

相关文章

网友评论

工作生活

本文标题：Point-to-Pose Voting based Hand

本文链接：https://www.haomeiwen.com/subject/jaqthctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

工作生活

关于我们|服务条款|联系我们|Point-to-Pose Voting based Hand |投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！