FaceNet

作者: haoshengup | 来源:发表于2020-03-07 13:48 被阅读0次

人脸识别：FaceNet详解
用Pyqt5开发的基于MTCNN、FaceNet人脸考勤系统
FaceNet
深度学习笔记（九）—— CNN-3
基于facenet做人脸比对
论文 | FaceNet脸部识别《FaceNet：A unifi
基于Triplet loss函数训练人脸识别深度网络（Open
3 计算机视觉-阅读笔记（9）
FaceNet: A Unified Embedding for
Python 人脸识别模型训练

解决人脸检测的后续问题：face veriﬁcation (is this the same person), recognition (who is this person) and clustering (ﬁnd common people among these faces)。

一、传统的基于CNN的人脸识别方法为：

1. 利用CNN的siamese网络来提取人脸特征
2. 然后利用SVM等方法进行分类

二、FaceNet亮点：

1. 利用DNN直接学习到从原始图片到欧氏距离空间的映射，从而使得在欧式空间里的距离的度量直接关联着人脸相似度；
2. 引入triplet损失函数，使得模型的学习能力更高效。
3. 结果示意图：

这是一个简单的示例，其中图中的数字表示图像特征之间的欧式距离，可以看到，图像的类内距离明显的小于类间距离，阈值大约为1.1左右。

三、实现

这篇文章中，最大的创新点应该是提出不同的损失函数，直接是优化特征本身，用特征空间上的点的距离来表示两张图像是否是同一类。网络结构如下：

上图是文章中所采用的网络结构，上图步骤可以描述为：
1、前面部分采用一个CNN结构提取特征
2、CNN之后接一个L2标准化，这样图像的所有特征会被映射到一个超球面上
3、再接入一个embedding层(嵌入函数)，嵌入过程可以表达为一个函数，即把图像x通过函数f映射到d维欧式空间

4、将嵌入层归一化到超球面上，例如可以使用： $|| f(x) ||_2^2 = 1$ （或者用softmax也可以实现）
5、接着，再去优化这些特征，而文章这里提出了一个新的损失函数，triplet损失函数(优化函数），而这也是文章最大的特点所在。

Triplet Loss(三元组损失函数):

以下是Triplet损失函数的原理(Triplet翻译为三元组)：
思想：什么是Triplet Loss呢？故名思意，也就是有三张图片输入的Loss（之前的都是Double Loss或者是SingleLoss）。
本文通过LDA思想训练分类模型，使得类内特征间隔小，类间特征间隔大。为了保证目标图像与类内图片(正样本)特征距离小，与类间图片(负样本)特征距离大。需要Triplet损失函数来实现。

根据上文，可以构建一个约束条件：

$||f(x_i^a) - f(x_i^p)||_2^2 + \alpha < ||f(x_i^a) - f(x_i^n)||_2^2, \ \forall(f(x_i^a), f(x_i^p), f(x_i^n)) \in \tau \quad(1)$

其中， $\tau$ ：所有可能的三元组集合
公式（1）中， $\alpha$ 决定了类间距的最小值，如下图所示，我们可以看到 $\alpha$ 越大，类间距越大（本文 $\alpha=0.2$ ）

把上式（1）写成损失(优化)函数，通过优化(减小)损失函数的值，来优化模型。损失函数为：

$L = \sum_i^N[||f(x_i^a) - f(x_i^p)||_2^2 - ||f(x_i^a) - f(x_i^n)||_2^2 + \alpha]_+, \quad (2)$

其中， $N$ ：训练集中样本的个数
从上面的两个公式中可以看到，如果一个三元组满足公式（1），也就意味着已经分类正确，不需要训练，如果把这种样本加入到loss里面，那么对网络的收敛帮助很小。所以，我们需要找那么hard triplets（也即是不满足公式（1）的三元组）来促进模型的训练。

四、Triplet Selection

1、问题描述：
为了确保模型快速收敛，选择违反公式1的约束条件的三元组是至关重要的。这意味着给定 $x_i^a$ ，我们需要：
（1）选择一个 $x_i^p$ （hard positive），使得 $argmax_{x_i^p}||f(x_i^a) - f(x_i^p)||_2^2$
（2）选择一个 $x_i^n$ （hard negtive），使得 $argmin_{x_i^n}||f(x_i^a) - f(x_i^n)||_2^2$
在整个训练集上穷举所有的三元组非常困难。而且，一些标注错误的图片和低质量的图片有可能主导hard positives和hard negatives，这反而会对训练产生不利影响。因此，我们有两种解决方案：
2、解决方案：
（1）离线更新三元组(每隔n步)。采用最近的网络模型的检测点并计算数据集的子集的argmin和argmax(局部最优)。
（2）在线更新三元组。在mini-batch上选择不好的正(类内)/负(类间)训练模型。
本文采用在线的方式，采用这种方式需要较大的batch（本文为1800）。在每个batch中，首先选择40张属于同一类的图片，然后随机补充其他类的图片。
3、实际采用的解决方案：
（1）在实际训练中，作者选取一个batch中的所有positive的anchor对，而不是hardest positive，因为这种方式在训练中更稳定，而且训练的初始阶段收敛的也更快。（分析：单个数据更容易受到噪声和错误数据的干扰，而使用更多的数据相当于做了平滑操作，抗干扰性更强，函数的连续性更好）
（2）虽然理论上需要选择最为困难的负样本，但是在实际中，这样会容易导致在训练中很快地陷入局部最优，或者说整个学习崩溃f(x)=0。为了避免这个问题，在选择negative的时候，我们选择满足以下公式的样本： $||f(x_i^a) - f(x_i^p)||_2^2 < ||f(x_i^a) - f(x_i^n)||_2^2, \quad(3)$
我们把这种负样本叫做 $semi-hard$ 。为什么叫 $semi-hard$ 呢？我们把公式（3）和公式（1）作比较，发现只是少了一个 $\alpha$ ，而 $\alpha$ 代表的是最小类间距。也就是说，这个三元组的样本满足了类内距离小于类间距离得聚类要求，但是类间距离还没有足够远（应该要大于 $\alpha$ ），所以叫 $semi-hard$ 。
可以看出，这种方式和上面实际中选择hard positive的策略类似，不是选择单个的hardest negative的样本，而是所有满足公式（3）的样本都会被采用。

参考：https://www.cnblogs.com/lijie-blog/p/10168073.html，写的不错，所以偷个懒，本文中有些部分直接摘抄自这篇博客。

人脸识别：FaceNet详解
概述 FaceNet是谷歌于[CVPR2015.02](FaceNet: A Unified Embeddin...
用Pyqt5开发的基于MTCNN、FaceNet人脸考勤系统
以上是用到的相关库，网络主要应用Tensorflow框架下的MTCNN以及FaceNet 主要是开源FaceNet...
FaceNet
解决人脸检测的后续问题：face veriﬁcation (is this the same person),...
深度学习笔记（九）—— CNN-3
3.FaceNet 有关FaceNet与triplet loss的理论知识请同学们复习理论课有关章节。在这里，我们...
基于facenet做人脸比对
效果演示用FaceNet模型计算两个人脸之间的距离准备工作： 1-1.下载FaceNet官方代码下载地址：h...
论文 | FaceNet脸部识别《FaceNet：A unifi
一写在前面最近在学图像检索这一方面的内容，所以挑了两篇比较经典的论文来学习：论文：Learning visu...
基于Triplet loss函数训练人脸识别深度网络（Open
Git: http://cmusatyalab.github.io/openface/ FaceNet’s inn...
3 计算机视觉-阅读笔记（9）
3.7.2 FaceNet代码代码地址： OpenFace Tensorflow实现 keras实现整个代码分...
FaceNet: A Unified Embedding for
1 文章说明方向：脸部识别时间：2015 会议：CVPR2015 2主要贡献提出了Triplet Loss ...
Python 人脸识别模型训练
人脸识别代码参考davidsandberg/facenet 人脸对齐人脸识别模型训练 --log_base_di...