基于级联卷积神经网络的人脸特征点定位

作者: 苟且偷生小屁屁 | 来源:发表于2018-03-05 19:07 被阅读0次

基于级联卷积神经网络的人脸特征点定位
人脸检测与识别概述
基于深度学习的人脸识别
OpenCV使用（三）：实现人脸检测
【子豪兄】十行Python代码实现人脸识别
MachineLearning
OpenCV 3 & Keras 实现基于CNN的人脸检
Tensorflow学习笔记-基于LeNet5结构的ORL数据集
用Python及深度学习实现iPhone X的FaceID功能
RNN循环神经网络

原文地址：http://blog.csdn.net/hjimce/article/details/49955149

一、相关理论

本篇博文主要讲解2013年CVPR的一篇利用深度学习做人脸特征点定位的经典paper：《Deep Convolutional Network Cascade for Facial Point Detection》，论文的主页为：http://mmlab.ie.cuhk.edu.hk/archive/CNN_FacePoint.htm 。网页提供了训练数据、测试demo，但是我却没有找到源码，所以只能自己写代码实现。这篇paper是利用深度学习搞人脸特征点定位的开山之作，想当年此算法曾经取得了state-of-art 的结果。后来face++发表的几篇paper的思想，都是在这篇paper的算法上进行扩展的。

在之前学过的各种深度学习模型中，一般就只有一个CNN，可这篇paper是由十几个CNN组成的。文献中如下网络结构图片：

image

这篇博文将仔细讲解paper算法的实现过程，领略不一样的CNN模型，也就是传说中的DCNN（这篇paper，后来人们又把这种多层次的CNN模型称之为DCNN）。接着我将先简单介绍，文章的主要思想。

1、RCNN回顾

paper的总思想是一种从粗到精的定位思想，如果你之前已经对R-CNN有所了解，我们就回忆一下现在的一些物体检测的大体算法思路，因为我觉得RCNN也是一种从粗定位，到精识别的过程，跟本篇paper的思想很相似，下面是RCNN的流程图(RCNN文献《Region-based Convolutional Networks for Accurate Object Detection and Segmentation》)：

image

首先输入一张图片，然后RCNN的思路是：

(1)采用传统的方法，先把一张图片中各个可能的物体的bounding box分割出来

(2)把各个可能的裁剪出来的物体检测框，输入cnn，进行特征提取，最后进行物体分类识别

OK，算法的总体思路很简单。其实这也是一种从粗到精的思想，就是我们对输入的一整张图片先进行粗定位，先定位出物体的bounding box，也就是物体的大体的位置。然后进行裁剪(bouding box)，这样我们裁剪出来的图片范围就变小了，外界背景因素的干扰就减小了，然后我们在把裁剪后的图片，作为CNN的输入，这样有利于提高精度。总之，假设你要用CNN做人脸识别，那么你就不应该把一整张图片，包括风景、背景、身体、头发这些背景因素都扔进CNN中，这样的精度会比较小。你应该是先用人脸检测器，把人脸部位的图片裁剪出来，送入CNN中，精度才会较高。OK，可能你觉得，我这边讲的话题有点废话，其实《Deep Convolutional Network Cascade for Facial Point Detection》这篇paper的思想就是这样，很简单的一个思想。

2、paper的思想

image

图 1

回到本篇文章的主题，特征点定位。以上面的图片为例，假设我们要定位出上面的5个人脸特征点，从粗定位到精定位的过程如下（下面我先用最简单的理解方式，讲解粗到精的定位过程，先不根据paper的算法进行讲解，等明白了粗定精的定位过程，我们再结合paper的算法进行细讲）：

(1) level1。首先我们要做的第一步，把人脸图片裁剪出来，而不是直接把上面的一整张图片，扔到CNN中，因为上面图片包含的范围太大了，我们需要使得输入CNN的图片范围越小越好，比如裁剪成下面的图片，然后输入CNN中（我们只需要保证要定位的5个特征点包含在里面就可以了）：

image

图 2

因此网络的第一层次CNN模型，我们的目标就是要定位出包含这5个特征点的最小包围盒，缩小搜索范围（paper没有这一层，它所采用的算法是直接采用人脸检测器，但是如果采用cnn，先定位出5个特征点的bounding box 精度会比直接采用人脸检测器，定位精度来的高，这个可以从后面face++发表的paper:《Extensive Facial Landmark Localization with Coarse-to-fine Convolutional Network Cascade》中看到，这篇我以后会在另外一篇博文中讲解，这边只是为了方便理解）

本层次CNN模型的输入：原始图片（图1）

本层次CNN模型的输出：包含五个特征点的bonding box，预测出bounding box后，把它裁剪出来，得到图2

(2) level2。接着我们采用CNN，粗定位出这五个特征点，如下图所示（换了一张示例图片，将就一下）：

image

图 3

上面示例图中，蓝色的点是正确的点；然后红色的点是，我们采用本层次网络CNN模型，预测定位出来的特征点。可以看到红色的点和正确的蓝色点，之间还是有很大的误差，这就是所谓的粗定位，只能大体的搜索到各个点的位置，精度还有待提高。这一层次，又称之为网络特征点的初始定位层，很粗糙的一个定位。然后根据我们cnn的粗定位点，也就是红色的点，作为中心，进行裁剪出一个小的矩形区域，进一步缩小搜索范围：

image

鼻子

image

![image](https://img.haomeiwen.com/i7937005/6f60bb2b5e751708?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

左右嘴角

image

左右眼睛

图 4

本层次CNN模型输入：包含五个特征点的bounding box图片（也就是图 2）

本层次CNN模型输出：预测出五个特征点的初始位置，得到图3的红色特征点位置，预测出来以后，进行裁剪，把各个特征点的一个小区域范围中的图片裁剪出来，得到图4

(3) level3。这一层又称之位精定位。

因此接着我们就要分别设计5个CNN模型，用于分别输入上面的5个特征点所对应的图片区域了，然后用于分别定位，找到蓝色正确点的坐标。通过图4的裁剪，我们的搜索的范围一下子小了很多，就只有小小的一个范围而已了。这边需要注意，各个部位的CNN模型参数是不共享的，也就是各自独立工作，5个CNN用于分别定位5个点。每个CNN的输出是两个神经元（因为一个CNN，只定位1个特征点，一个特征点，包含了(x，y)两维）。声明：这一层次的网络，文献不仅仅包含了5个CNN，它是用了10个CNN，每个特征点有两个CNN训练预测，然后进行平均，我们这里可以先忽略这一点，影响不大。

本层次CNN模型输入：各个特征点，对应裁剪出来的图片区域，如图4

本层次CNN模型输出：各个特征点的精定位位置。

OK，到了这里，基本讲完了，从粗定位到精定位的思想了，如果看不懂，就得结合文献，反复的读了，因为只有懂了这个思想，才能进行下一步。

二、网络架构

上面只是对从粗到精的思想，大体的思路进行了讲解，但是具体我们要怎么实现，代码要怎么实现，各个网络是如何训练的？因此接着我要讲的就是细节、代码实现问题，上面讲解从粗到精的思想的时候，我为了方便理解，所以有的一些细节也没有根据文献的讲。这一部分，我们将根据文献的一步一步，每个细节，网络结构进行讲解。首先我们先再次看一下网络的结构图：

image

这篇papar的DCNN，总体上分成三大部分，分别是：level 1、level 2、level 3。每个level 里面，包含着好几个CNN模型，我们将一步一步剖析这个网络结构。在最开始的时候，首先，我们利用人脸检测器，裁剪出人脸图片，具体的人脸检测器的就是用我们传统的方法，比如haar特征。然后把我们裁剪出来的人脸图片，作为level 1的输入。下面开始分层次讲解各个level 的具体细节（在此不要纠结level 这个词怎么翻译，如果非要理解这个词，可以用“等级”，leve 1表示最粗糙的等级，然后level 2表示精等级，level 3表示更精的等级）。

1、level 1网络架构

网络的输入：我们通过人脸检测器，裁剪出face bounding box，然后把它转换成灰度图像，最后缩放到3939大小的图片，这个3939的图片，将作为我们level 1的输入。在网络的第一层次上，由三个卷积神经网络组成，这三个卷积神经网络分别命名为：F1（网络的输入为一整张人脸图片），EN1（输入图片包含了眼睛和鼻子）、NM1(包含了鼻子和嘴巴区域)。这三个卷积网络区别在于输入的图片区域不同：

image

第一层次网络

A、F1****结构

F1的输入为整个人脸图片（39*39的大小），输出为我们所要预测的五个特征点。F1的网络结构如下：

image

F1的网络结构图

输入一张人脸图片大小为39*39，然后通过卷积神经网络，输出一个10维的特征向量（5个特征点）。F1的结构，第一个层特征图选择20，第二次卷积特征图个数选择40，然后接着是60、80。具体各层的参数可以参考下面表格：

image

F1网络参数

I(39,39)表示输入图片大小为39*39，P(2)应该表示池化为stride大小为2。具体的各层参数我就不再详解，因为这个不是重点，而且即便是你没有根据paper的结构进行设计，对精度的影响也不大(只要你设计的网络合理，不要出现过拟合、欠拟合都OK)

B、EN1、NM1的网络结构

这两个CNN和F1基本相同，不过输入图片的大小不同，输出神经元的个数也不相同。

EN1用于定位:左眼+右眼+鼻子三个特征点，因此自然而然，网络设计的时候，输出层的神经元个数就是6。然后输入的图片，是我们根据比例裁剪的，我们把3939图片的上半部分裁剪出来，裁剪出3139大小的图片，当然裁剪大小比例这个是一个经验裁剪，我们只要保证裁剪的区域包含了眼睛和鼻子区域就好了。

NM1用于定位：左嘴角+右嘴角+鼻子三个特征点。同样的，网络的输出就是6个神经元，输入部分，从人脸的底部往上裁剪，也是裁剪出31*39的图片，只要裁剪出来的区域，只包含嘴巴和鼻子，就OK了。具体这两个CNN的各层相关参数，如下表格中的S1行所示（S0是F1，S1是EN1、NM1）：

image

EN1\NM1网络参数

那么F1、EN1、NM1三个网络是怎么连接在一起的？我们通过平均的方法，把重复预测的特征点进行位置平均。比如我们的鼻子点，三个网络都可以预测到位置，那么我们就把这三个网络预测出来的鼻子点，三个点相加，然后除以3，就可以得到平均位置了。再如，右眼睛，我们F1、EN1这两个网络有预测，我们就把这两个网络预测到的右眼睛点相加在一起，然后除以2，就得到平均位置了。

那么为什么要搞得这么复杂了，为什么要用三个网络进行分别预测，然后进行平均呢？其实这个就像Alexnet一样，采用平均预测的方法，可以提高网络的稳定性，提高精度，如果你之前已经学过Alexnet，就会明白作者为什么要用平均预测。总之”平均“，可以提高网络的稳定性、防止预测特征点的位置偏差过大，提高精度。

OK，我们大体知道了level 1由三个CNN组成，三个CNN分别预测各自所需要的特征点，然后进行位置平均。这三个CNN都包含了9层（如上面的表格所示），算是一个深度网络。level 1因为是粗定位，输入的图片区域比较大，特征提取难度比较大，所以我们设计这一层级网络的时候，需要保证网络的深度，用于提取复杂的特征（原理解释请自己查看paper）。突然感觉讲到这边，有点累了，好漫长的算法，感觉才讲了一半左右，坚持……

2、level 2 网络架构

A、level 2的输入

经过了level 1 我们大体可以知道了，各个特征点的位置，接着我们要减小搜索范围，我们以第一层级预测到的特征点，以这五个预测特征点为中心，然后用一个较小的bbox，把这五个特征点的小区域范围内的图片裁剪出来，如下图所示：

image

鼻子

image

![image](https://img.haomeiwen.com/i7937005/c529ec350d151c3e?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

左右嘴角

image

左右眼睛

level 2 输入

上图中，红色的点就是我们用level 1 预测出来的位置，然后在进行裁剪（上面图，我是自己手动随便裁剪的，因为比较懒，所以就随便做了一个示意图，我们程序裁剪的时候，是以预测点为中心点，裁剪出一个矩形框）。OK,既然是裁剪，那么我们要裁剪多大？这个可以从下面表格参数中知道，level 2采用的是S2行，我们只需要看S2那一行参数就可以了：

image

我们裁剪的时候，是以level 1的特征点为中心，裁剪出小区域范围的图片。

B、网络总体结构

image

level 2 组成

本层次的网络CNN个数可就多了，level 2 由10个CNN组成，每个CNN网络层数、每层的相关参数，如上面的表格中S2那一行所示。总之就是leve 2 和level 3的结构都是用了S2那一行的参数，每个CNN包含6层。

哎，看到上面level 2的10个CNN，估计会有点晕，其实很简单，且听我细细道来：这10个CNN，分别用于预测5个特征点，每个特征点用了两个CNN，然后两个CNN对预测的结果进行平均。我们以左眼特征点为例，我们用表格S2行的参数设计出了LE21、LE22，我们在训练的时候，训练了两个模型，这两个CNN都是用于预测左眼特征点，然后我们使用的时候，就直接用这两个CNN预测到的特征点，做位置平均。总之一句话就是：还是平均，跟level 1一样，也是用多个CNN进行位置平均。

3、level 3网络架构

level 3是在level 2得到预测点位置的基础上，重新进行裁剪。我们知道由level 2的网络，我们可以进一步得到那5个特征点的位置（离正确的点越近了），然后我们利用level 2的预测位置，重新进行裁剪。然后在重新进行预测，level 3的总体结构如下：

image

与level 2结构相同，也是由10个CNN组成，每两个CNN预测1个特征点。那么level 3和level 2的区别在哪里呢？首先我们的裁剪区域发生了变化，我们也可以让level 3的裁剪图片大小再变得更小一些。

三、网络训练

测试误差评价标准公式如下：

image

其中l是人脸框的长度。

其它细节：

1、采用local shared weights 有助于level 1的精度提高

2、采用abs+tanh 激活，可以提高网络性能：

image

OK，终于解放了，讲解完毕，对于人脸特征点的定位，出了从粗到精的定位方法，后面还有一些paper采用的是mutil-task方法，好像很不错的样子，以后在慢慢学习。

参考文献：

1、《Deep Convolutional Network Cascade for Facial Point Detection》

2、《Extensive Facial Landmark Localization with Coarse-to-fine Convolutional Network Cascade》

3、《Face Alignment at 3000 FPS via Regressing Local Binary Features》

4、《Face Alignment by Explicit Shape Regression》

基于级联卷积神经网络的人脸特征点定位
原文地址：http://blog.csdn.net/hjimce/article/details/49955149...
人脸检测与识别概述
人脸专集1 | 级联卷积神经网络用于人脸检测https://mp.weixin.qq.com/s/GLczMEW1...
基于深度学习的人脸识别
1. 传统人脸识别方法基于模板匹配基于几何特征基于代数特征（PCA，LDA，HMM算法）基于人工神经网络...
OpenCV使用（三）：实现人脸检测
目录效果展示 OpenCV的人脸检测函数 OpenCV中的人脸检测是基于训练好的LBP与HAAR特征级联检测器完...
【子豪兄】十行Python代码实现人脸识别
Bilibili视频教程：十行Python代码实现人脸识别本章内容使用基于Haar特征的Cascade级联分类...
MachineLearning
一、卷积&池化卷积卷积能抽取特征多层卷积能抽取复杂特征卷积神经网络每层的卷积核权重是由数据驱动学习得来，不...
OpenCV 3 & Keras 实现基于CNN的人脸检
人脸识别是计算机视觉一个很重要的领域，本文实现了一个基于卷积神经网络的人脸识别程序，能够识别摄像头中指定的人脸。 ...
Tensorflow学习笔记-基于LeNet5结构的ORL数据集
参考文献:《基于卷积神经网络的人脸识别研究》李春利，柳振东，惠康华文章中基于经典的网络LeNet-5的结构，提...
用Python及深度学习实现iPhone X的FaceID功能
摘要：本文主要是展示FaceID解锁机器的基本工作机制，采用的方法是基于人脸映射和孪生卷积神经网络，Github上...
RNN循环神经网络
用RNN(循环神经网络)实现连续数据的预测(以股票预测为例) 回顾卷积神经网络卷积就是特征提取器，就是C(卷积)...