keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

[转载]http://blog.sina.com.cn/s/blog_1450ac3c60102x9lt.html

最近尝试了人脸关键点检测的相关工作，因此从kaggle的facial keypoint detection开始入手。数据集由有效的2300+的96*96单通道图片组成。每张图片有15个标记点（原来有7000+但是其中5000+的类标有缺失）

image 96*96单通道黑白图片，15个标记点

我们使用了简单的CNN网络结构

image keras模型plot,输出是线性激活，30个输出是由于15个关键点每个点的x,y坐标

代码地址：https://github.com/ewrfcas/Machine-Learning-Toolbox/blob/master/CNN_facial_keypoint_detection_ex.ipynb

训练500epoch之后，我们可以得到这样的部分结果如下（蓝色为标签信息，红色为模型预测信息）：

实验结果：（蓝色为真实标记，红色为算法输出标记）

image 训练集

image 验证集

image 测试集

可以看到上述结果大多是比较理想的。测试集中第二个数据集是3D动画人物，嘴的标点出现了偏差，验证集中第四张出现了显著偏差，测试集反而表现普遍比较良好。

在网络的搭建过程中踩了几个坑：

1）首先是对15*2=30个输出类标需要归一化到[-1,1]，这个操作如果没有做的话在训练的过程中loss的变化会非常不稳定，不利于earlystop的设置，并且会导致结果收敛极不理想。

2）由于我们将输出归一化至[-1,1]，并且在大多数的论文中也是使用线性激活函数，因此在本实验中使用了线性激活函数。如果使用tanh作为激活函数，在500个epoch后结果变化不大：

image tanh激活函数结果，和线性差别不大

但是线性回归模型更加稳定，更适合微调，并且更具有可解释性。并且在epoch数量低的时候，tanh激活函数的收敛显然不理想，即线性模型在该模型上收敛更迅速。

3）优化器optimizer的选择至关重要，一开始选用默认参数的Adadelta，模型失效，在降低了学习率之后仍然失效。选用SGD随机梯度下降，效果有显著提高。Adadelta通过自适应的学习率调整，虽然能够较快地收敛，但是之后会陷入严重的模型均等化误区。每个样本的输出关键点都差不多（即使输入是随机生成的雪花图片），模型欠学习，无法学习到人脸的特征。

4）现在图像分类模型中用globalavgpooling来代替全连接的工作很多，可以有效降低过拟合风险，在这个回归问题中，paper里无一例外都加了至少2层全连接，让人难以接受。这里以avg_pooling代替全连接进行了测试。