美文网首页
Robust Facial Landmark Detection

Robust Facial Landmark Detection

作者: Junr_0926 | 来源:发表于2018-10-14 15:30 被阅读0次

1. 前言

依旧是CVPR 2018的文章,感觉alignment今年还蛮火的。

2. 介绍

首先论文中提到了一个观点,全卷积网络能够很好地提取局部特征,但是却无法很好的整合全局的信息,因为特征对应的感受野都不够大。
为了克服这个问题,人们使用例如:级联,池化,或者拟合一个统计模型(?),这篇论文提取了一个新思路来在FCN中引入全局信息。
关键点是一个implicit kernel convolution within the network.

论文中提到了全卷积网络的几个特点:

  1. 不依赖于图片分辨率
  2. 不需要bounding box
  3. 可以处理没有物体或者多个物体的情况
  4. 可以处理cropped和遮挡
  5. 更少的参数和内存需求

3. Local-global context network

作者采用了heatmap回归的方式,论文的方法能够考虑到全局的context,并且可以根据点分布模型来通过后处理优化。
通过使用dilated convolution,可以避免过拟合的问题。?

3.1 预处理

首先将训练和测试图片crop到正方形,在rescale到96*96。作者将图片都转换为了灰度图,作者发现结果和RGB差不多,甚至有时候更好,这可能是因为三通道容易过拟合。
landmark的groundtruth被设置为灰度图,通过线性插值使得包含4个不为零的像素点,它们的和为1.

3.2 Network architecture

如下图:


Figure 1

总体来说,网络包含四个部分:

  1. local-context, fully-convolutional network
  2. convolution with a (customizable) static kernel
  3. Global-context, dilated fully-convolutional network
  4. Square error-like loss versus kernel-convolved labels

3.2.1 Local-context subnet

该子网络作为局部特征提取器,提取一些底层的局部landmark特征,上述图片中,该子网络是一个15层的CNN,和一个1*1的linear convolution。

3.2.2 Kernel convolution

local-context子网络的输出,通过grouped convolution来进行整合,只是group size为1。就是每个卷积核仅仅和输入的一个通道卷积。
它有两个目的:

  1. 像素之间的平方差现在关联了预测和ground truth之间的距离
  2. global-context子网络可以利用dilated,而不是dense convolution
    论文给出了一些解释。
    kernel设计如下:


    1

3.2.3 Global-context subnet

该全局子网络的目的是整合local子网络的信息。作者使用了dilated卷积来增大感受野。

3.2.4 Loss

作者根据N个landmark是否在图片边界内来对它们进行加权:

3
4
O_n^l 表示local的第n个通道, O_n^g 表示global的第n个通道。 K 是kernel, G_n 是ground truth heatmap。

相关文章

网友评论

      本文标题:Robust Facial Landmark Detection

      本文链接:https://www.haomeiwen.com/subject/diizaftx.html