3 计算机视觉-阅读笔记（8）

作者: 深度学习模型优化 | 来源:发表于2019-04-29 01:07 被阅读0次

3 计算机视觉-阅读笔记（8）
3 计算机视觉-阅读笔记（3）
3 计算机视觉-阅读笔记（2）
3 计算机视觉-阅读笔记（1）
3 计算机视觉-阅读笔记（9）
3 计算机视觉-阅读笔记（10）
3 计算机视觉-阅读笔记（4）
3 计算机视觉-阅读笔记（5）
3 计算机视觉-阅读笔记（7）
3 计算机视觉-阅读笔记（6）

算法和码力是核心能力。

3.7 人脸识别简介

先看几个容易混淆的概念，区分清楚。

人脸检测（Face Detection）
人脸检测是一种特殊的目标检测，它只检测人脸。它的任务是从一张图片中找到人脸的Bounding Box。
人脸验证（Face Verification）
人脸验证的任务是判断两张人脸图片是否是同一个人，这是一个两分类问题，通常用于基于人脸的登录控制、访问控制、身份确认等方面，比如基于人脸的手机解锁，操作系统登录。
人脸鉴别（Face Identification）
人脸鉴别任务是判断一个人脸是属于哪一个人，确定其身份，属于多分类问题。人脸鉴别又分为开放的(open)和封闭的(closed)两种，后者假设输入的人脸照片一定属于预先定义的人群中的一个；而前者有可能输入的是任何人的照片。封闭的人脸鉴别通常用于人脸搜索，比如警察用照片搜索犯罪嫌疑人。它不要求搜索出来的一定就是正确的，因为后面还会有人来确认，算法只是进行初筛，提供可能的候选。而后者除了要找到最相似的候选人之外还需要确认这两个人是同一个人(也就是人脸验证)，比如前面介绍的门禁系统，我们肯定不能假设输入就一定是公司的某一个员工的照片。
人脸识别（Face Recognition）
人脸识别是人脸验证和人脸鉴别的合称，有的时候人脸鉴别也被称为人脸识别。人脸识别是计算机视觉的一个经典任务，有很多的算法，我们这里只介绍基于深度学习的FaceNet。

3.7.1 FaceNet

人脸识别问题和常见识别问题的区别，也就是人脸识别问题的特殊性--训练数据少。因此一般采用聚类算法。

来介绍第一个选手Siamese Network。

图1 Siamese Network网络架构

但是如果要比对的图片很多，Siamese Network就爆炸了，因此需要改进。方法称为Face Embedding。即用一个降维的向量来表示人脸。然后就有了FaceNet。

图2 FaceNet模型结构

这里损失函数为Triplet Loss。

图3

Face Embedding将输入图像 $x$ 映射为 $d$ 维欧式空间的一个点，表示为 $f(x) \in R^{d \times 1}$ 。另外在这个基础上增加一个归一化约束 $\Vert f(x) \Vert_2 = 1$ ，即将Face Embedding都限制在半径为1的超平面上。

公式描述为：
$\Vert f(x_i^a) - f(x_i^p) \Vert_2^2 + \alpha \leq \Vert f(x_i^a) - f(x_i^n) \Vert_2^2$
其中 $f(x_i^a)$ 表示第 $i$ 个triplet中的anchor， $f(x_i^p)$ 表示第 $i$ 个triplet中和anchor同一个人的另一张图片， $f(x_i^n)$ 表示第 $i$ 个triplet中其他人的图片。 $\alpha$ 表示margin。
总之，可以表述为：同一个人的图片的距离加上一个margin( $\alpha$ )仍然要小于不同人图片的距离。于是损失函数可以写为：
$L = \mathop \sum_i \left[ \Vert f(x_i^a) - f(x_i^p) \Vert_2^2 + \alpha - \Vert f(x_i^a) - f(x_i^n) \Vert_2^2 \right]_+$
其中 $[x]_+ = \max(0, x)$ 。其意思为：如果相同人的图片的Embedding的距离加上 $\alpha$ 小于不同人，那么就没有loss(零)，否则loss就是它们的差值，并且差值越大损失也越大。因此这样的损失函数迫使模型让相同人的照片尽量聚集在一起，而不同人的照片尽量远离彼此。提高类间距离，减小类内距离。