SfSNet[1]

工作目的

这个工作的目的就是输入一张在真实世界中人脸图像，在朗伯假设下，将图像分解为形状，反射和光照三方面的信息。形状信息就是法向图，反射信息表示为反照率。光照信息表示成一个三通道，每个通道9参数的矩阵，总共27个光照参数。

背景知识

球谐光照：其中的光照信息使用的是球谐光照的表示方法，球谐光照由于涉及较多数学知识，所以我还没有完全明白，不过我的简单的理解就是它就像傅里叶变换中的正谐函数一样，我们可以用正谐函数去组成任意的函数，那么在这里就是使用球谐函数去表示任意的光照信息。

Shape from shading：是一种单幅图像恢复三维信息的一种方法。需要知道光源的方向，根据以下定理求某点的倾角。其中涉及坐标系的变换，先由光源信息将坐标系变为光源坐标系，在此坐标系进行计算之后重新变回原坐标系。

论文亮点

我们知道，要训练这样的模型，不仅需要有人脸图像，还要有该人脸图像对应的形状，反射率等信息。但是这样的数据十分有限。因为收集大量的人脸是没问题的，但是该模型还需要和它相匹配的三维模型，不仅如此，更需要记录每张脸的反照率和每次拍摄时的光照参数，这个就比较困难了。该模型就是较好的将合成的数据（有标签）和真实人脸图像（无标签）进行混合训练。

Sfsnet模型图

在有标签的合成数据上训练一个简单的基于跳跃连接的编码解码网络。
将此网络应用于真实数据，以获得形状，反照率和光照估计。这些元素将在下一阶段用作“伪监督”。
用带有标签的合成数据和带有“伪监督”标签的真实数据训练SfSNet。损失除了法向，反照率和光照的监督损失，还有重建损失，其旨在最小化原始图像和重建图像之间的误差。

总的来说合成信息是让网络学习分解信息，学习到的是较低频的，由于是合成的，所以没有皱纹等高频信息就无法学习到。而真实数据由于有重建损失的存在使得网络能够学习到高频信息，而“伪监督”标签的存在使得真实图像也能正确地进行图像分解，从而达到改变光照的目的。

Deforming AE[2]

这是一种图像的生成模型，可以无人监督的方式从外观中解开形状。与可变形模板范例一样，形状表示为规范坐标系（“模板”）和观察图像之间的变形，而外观则以变形不变的模板坐标建模。我们介绍了允许在自动编码器设置中部署此方法的新技术，并表明该方法可用于无监督的分组图像对齐。我们展示了人类，手和数字中的表达变形，面部操纵（例如形状和外观插值）以及无监督地标定位的实验。我们还在模板坐标中实现了一种更强大的无监督解开形式，成功地将人脸图像分解为阴影和反照率，使我们能够进一步操纵人脸图像。

贡献

介绍了变形自动编码器架构，将可变形建模范例与无监督深度学习结合在一起。我们将模板到图像的对应任务视为预测平滑和可逆转换的任务。如图1所示，我们的网络首先预测转换场与模板对齐的外观场。它随后使合成的外观变形以生成类似于其输入的图像。这允许我们通过明确地模拟解码期间图像变形的影响来解开形状和外观。
探索了解码器可以表示和预测变形的不同方式。我们不是建立一个通用的变形模型，而是用一个非刚性场组成一个全局的，变形的场，它被合成为一个卷积解码器网络。我们开发了一种方法，可以防止合成变形场中的自交，并表明它简化了训练并提高了准确性。我们还表明，在可用时，可以利用与类相关的信息来学习更好的变形模型：这会产生更清晰的图像，并且可以用于学习共同考虑多个类的模型 - 例如所有MNIST数字。
表明了从变形中解开外观对于建模和操纵图像具有几个优点。与标准自动编码器架构相比，解缠结导致表达，姿势或身份插值等任务的明显更好的综合结果。类似地，我们表明变形的计算有助于进一步将外观成分解开为内在的阴影反照率分解，这允许我们通过对潜在着色坐标的简单操作重新着色。

具体模型原理

未完待续……

参考文献：
[1]. Sengupta S, Kanazawa A, Castillo C D, et al. SfSNet: Learning Shape, Reflectance and Illuminance of Faces in the Wild[J]. 2017.
[2]. Shu Z, Sahasrabudhe M, Guler A, et al. Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance[J]. 2018.