美文网首页人工智能技术圈计算机视觉
手势识别:基于tensorflow实现Gesture Recog

手势识别:基于tensorflow实现Gesture Recog

作者: Mr_Relu | 来源:发表于2019-04-29 14:39 被阅读374次

    声明:创作不易,未经授权不得复制转载
    statement:No reprinting without authorization


    0、编程环境:

    python >= 3.6
    tensorflow >= 1.10.0
    OpenCV >= 3.4.4
    低一点的版本应该也能运行
    完整代码已经更新至GitHub,欢迎star or fork~GitHub链接

    项目效果展示

    图片预处理示例
    视频流实时识别
    视频地址

    一、数据集介绍与划分

            手势识别的数据集来自于 Turkey Ankara Ayrancı Anadolu High School'sSignLanguageDigitsDataset,注意到这个数据集由土耳其人制作, 所以用来表示数字3的手势会和中国人表示3的手势有略微差异,按照这个数据集的手势训练与测试即可。
    图像大小:100*100 像素
    颜色空间:RGB 种类:
    图片种类:6 种(0,1,2,3,4,5)
    每种图片数量:200 张
    数据集git链接
    一共6种手势,每种手势200张图片,共1200张图片(100x100RGB)

    示例样本

    二、图片预处理及CNN模型(输入/输出)

    image.png

    实际图片处理展示:resize前先高斯模糊,提取边缘后可以根据实际需要增加一次中值滤波去噪:


    image.png

    三、神经网络结构及具体参数

    使用tensorflow的框架:


    image.png
    gesture_forward

    Dropout: 增加鲁棒性帮助正则化和避免过拟合

            一个相关的早期使用这种技术的论文((ImageNet Classification with Deep Convolutional Neural Networks, by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012).))中启发性的dropout解释是:这种技术减少了神经元之间复杂的共适性。因为一个神经元不能依赖其他特定的神经元。因此,不得不去学习随机子集神经元间的鲁棒性的有用连接。换句话说。想象我们的神经元作为要给预测的模型,dropout是一种方式可以确保我们的模型在丢失一个个体线索的情况下保持健壮的模型。在这种情况下,可以说他的作用和L1和L2范式正则化是相同的。都是来减少权重连接,然后增加网络模型在缺失个体连接信息情况下的鲁棒性。在提高神经网络表现方面效果较好。

    四、神经网络结构及具体参数

    激活函数:relu
    损失函数计算:

    ce=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
    cem = tf.reduce_mean(ce) 
    loss = cem + tf.add_n(tf.get_collection('losses’)) 
    

    动态调整学习率,采用指数衰减
    采用梯度下降优化:tf.train.GradientDescentOptimizer
    使用滑动平均,增加模型泛化能力
    使用L2正则化,超参为:0.0001

    tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(regularizer)(w))
    

    五、实验训练过程及结果

    经过约4800轮的训练后,loss基本收敛,在0.6左右,在120份的测试样本上的模型准确率能够达到约96%


    image.png
    image.png

    六、进行实际应用

    1、对输入图片处理后进行手势识别,分别测试在简单背景下,一般复杂背景下、以及复杂背景下的模型识别效果:

    image.png
    结果:
    image.png
    2、复杂背景干扰:
    image.png
    结果:
    image.png
    3、对输入视频进行实时的识别:文件链接
    4、分析:
    对于一般手势的角度与数据集中一样比较正直的有较高的识别准确率,但是对于倾斜较大或噪声很难去除的情况会干扰识别,导致出错。
    应对方法:
    进一步缩小肤色的RGB值范围,对手势结构进行更精确的提取,目前的肤色提取范围为:
    image.png

    相关文章

      网友评论

        本文标题:手势识别:基于tensorflow实现Gesture Recog

        本文链接:https://www.haomeiwen.com/subject/irdsnqtx.html