换脸到底是什么样的操作

Deepfake，是由“deep machine learning”（深度机器学习）和“fake photo”（假照片）组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。

其实该技术最早版本在2018年初就被提出了，当时在构建模型的时候使用了Encoder-Decoder自编解码架构，在测试阶段通过将任意扭曲的人脸进行还原，整个过程包含了：获取正常人脸照片=>扭曲变换人脸照片=> Encoder编码向量 => Decoder解码向量 => 还原正常人脸照片五个步骤。而ZAO在Encoder-Decoder的框架之上，又引入了GAN（生成对抗网络）技术，不但降低了同等条件下的模型参数量和模型复杂度，同时使生成的人脸更为清晰，大大降低了对原图的依赖，显著提升了换脸的效果，而且基于GAN技术的Deepfake改进版已经在Github开源。

尽管「Deepfake」这类应用非常吸引人，但落到实处还是会引发很多的问题，不论是伦理还是隐私。后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案，也许大规模应用还能进一步催生效果更好、算力更少的解决方案。

直观而言，GAN 这类生成模型可以生成非常逼真的人脸图像，那么现在需要将某个人的特点迁移到另一张人脸上，这就需要更多的模块来定义需要迁移的位置与特点。

总体上，「Deepfakes」换脸主要分为以下过程：

人脸定位
人脸转换
图像拼接

其中人脸定位已经非常成熟了，一般定位算法可以生成人脸的特征点，例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型，它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景，从而达到只改变人脸的效果。

当然，如果生成 ZAO 这种小视频，那么还需要一帧帧地处理图像，然后再将处理后的结果重新拼接成小视频。

人脸定位

人脸定位也就是抽取原人脸的表情特征，这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取，但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」，从而找到人脸显著的特征点。

image.png

如上是一些人脸特征点，如果我们想换脸的表情更加真实和准确，那么也可以使用目前主流的人脸识别算法，它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力，尤其是在处理高分辨率图像时。

人脸转换

首先对于变分自编码器（VAE），我们知道它希望通过无监督的方式将人脸图像压缩到短向量，再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息，例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。

image.png

所以如果我们用某个编码器学习所有人，那么它就能学习到人脸的共性；如果再用某个解码器学习特定的某个人，那么就能学习到他的特性。简单而言，当我们用通用编码器编码人脸 A，再使用特定解码器 B 解码隐藏向量，那么就能生成出拥有 A 的人脸表情，但却是 B 人脸的图像。

这就是 VAE 的解决方案，对于 GAN 来说，它会利用抽取的人脸特征点，然后根据生成器生成对应的目标人脸图像。这时候，编码器同样也会将真实的目标人脸编码，并和生成的目标人脸混合在一起。因此，如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别，那么生成的人脸就非常真实了。

image.png

如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案，它只需要几张目标人脸图，就能根据原人脸的特征点生成极其逼真的效果。

如何识别和应对「Deepfakes」照片或视频？

知道了如何制作换脸视频，我们还要掌握一些识别换脸视频的技术，因为这些换脸技术给大众带来欢乐的同时，也在被不少人滥用。这种滥用不仅给公众人物造成了困扰，甚至还威胁到了普通大众。

不自然的眨眼

由于用来训练神经网络的图像数据往往是睁着眼睛的，因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。

去年，奥尔巴尼大学（University of Albany）的研究人员发表了一篇论文，提出了一种可以检测这种不自然眨眼的技术。有趣的是，这项技术使用的也是深度学习，和制作假视频的技术是一样的。研究人员发现，利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段，找出非自然眨眼运动的一系列帧。结果发现，Deepfake 视频中人物的眨眼不符合正常的生理学规律，由此可以识别出哪些是原始视频，哪些是 Deepfakes 视频。