人脸检测-SSH 读后感

作者: 教训小磊 | 来源:发表于2019-08-24 15:32 被阅读0次

人脸检测-SSH 读后感
MTCNN
opencv之人脸检测项目实战（二）
安卓OpenCV开发（二）人脸检测
人脸活体检测
人脸识别
iOS ---人脸检测
Android之基于Facenet模型比对视频中的人脸
较为成熟的安卓项目--人面识别，手势识别向
AVFoundation开发秘籍笔记-07高级捕捉功能之人脸识别

这篇文章是用one-stage的方法实现快、准、轻的人脸检测，骨干网络用的是VGG-16，去除了所谓的head，即最后的3个全连接层。最后的分类和bbox回归用RPN的anchor实现，相比faster-rcnn中的anchor，本文作者只是用1：1的宽高比，作者在实验中发现不同的宽高比对实验精度的提高没有太大帮助。

本文在VGG之上构建了三个并行网络，M1,M2,M3分别用来检测小、中、大人脸。如下图一：

图一 SHH网络构架

我这里从中间的M2说起，在VGG-16的最后一个卷积层conv5输出之后分成两路，上面一路用于检测中型人脸，下面一路用于跟M1进行特征融合，先通过1x1卷积降维（128），然后通过双线性插值上采样。M2的这一步是参考FPN（特征金字塔）的将高维特征和低维特征融合来获得更多文本语义信息，这样有助于检测小物体，比如小人脸。M1,M3这块的大体检测没啥好讲的，图一表述的很清楚了。

接下去来讲讲这里面的Detection Module部分，如图二：

图二 Detection Module 构架

Detection Module 采用并行连接，3x3卷积+上下文检测模块，然后concat连接，最后通过1x1卷积分类和bbox回归，这样的方法还是挺新颖的，用1x1卷积干这种事，之前用于代替全连接层干这些活的就只有是全局平局池化。这里面的S是步长的意思，本文作者的设定分别是8，16，32。

然后就是Context module 模块，如下图三：

图三 Context module构架

顾名思义这个模块主要用来增强上下文语义信息，它的思想来自Google出的Inceotion系列，增加宽度。用卷积核为5x5,7x7来进行操作，但是为了减小计算量用2个3x3和3个3x3代替上面两者，因为5x5,7x7的感受野跟2个3x3和3个3x3一样，但计算量明显小很多，5x5→2x3x3，7x7→3x3x3。

最后作者还强调因为把VGG-16的head 去掉了，所以用Online hard negative and positive mining方法训练变得很重要，这个方法是2016提出的，具体怎么样的我也还不清楚，接下去要去看一下这篇文章。