keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验
[转载]http://blog.sina.com.cn/s/blog_1450ac3c60102x9lt.html
最近尝试了人脸关键点检测的相关工作,因此从kaggle的facial keypoint detection开始入手。数据集由有效的2300+的96*96单通道图片组成。每张图片有15个标记点(原来有7000+但是其中5000+的类标有缺失)
image 96*96单通道黑白图片,15个标记点我们使用了简单的CNN网络结构
image keras模型plot,输出是线性激活,30个输出是由于15个关键点每个点的x,y坐标训练500epoch之后,我们可以得到这样的部分结果如下(蓝色为标签信息,红色为模型预测信息):
实验结果:(蓝色为真实标记,红色为算法输出标记)
image 训练集 image 验证集 image 测试集可以看到上述结果大多是比较理想的。测试集中第二个数据集是3D动画人物,嘴的标点出现了偏差,验证集中第四张出现了显著偏差,测试集反而表现普遍比较良好。
在网络的搭建过程中踩了几个坑:
1)首先是对15*2=30个输出类标需要归一化到[-1,1],这个操作如果没有做的话在训练的过程中loss的变化会非常不稳定,不利于earlystop的设置,并且会导致结果收敛极不理想。
2)由于我们将输出归一化至[-1,1],并且在大多数的论文中也是使用线性激活函数,因此在本实验中使用了线性激活函数。如果使用tanh作为激活函数,在500个epoch后结果变化不大:
image tanh激活函数结果,和线性差别不大但是线性回归模型更加稳定,更适合微调,并且更具有可解释性。并且在epoch数量低的时候,tanh激活函数的收敛显然不理想,即线性模型在该模型上收敛更迅速。
3)优化器optimizer的选择至关重要,一开始选用默认参数的Adadelta,模型失效,在降低了学习率之后仍然失效。选用SGD随机梯度下降,效果有显著提高。Adadelta通过自适应的学习率调整,虽然能够较快地收敛,但是之后会陷入严重的模型均等化误区。每个样本的输出关键点都差不多(即使输入是随机生成的雪花图片),模型欠学习,无法学习到人脸的特征。
4)现在图像分类模型中用globalavgpooling来代替全连接的工作很多,可以有效降低过拟合风险,在这个回归问题中,paper里无一例外都加了至少2层全连接,让人难以接受。这里以avg_pooling代替全连接进行了测试。
image 用globalavgpooling代替2层全连接,训练过程epoch在patience=20的情况下263次迭代即提前停止,loss难以下降,最终结果的拟合性能也不够理想。
image 用globalavgpooling代替2层全连接的测试集结果(欠拟合)可以发现,缺少全连接的情况下权重的大小减少到了原来的1/300,而GlobalPooling的作用在图像上主要还是体现在泛化性能的提升,防止过拟合以及权重的精简。但是在这个回归任务上,目前看来欠拟合才是最主要的问题,而全连接能够更精致地捕捉嘴角,眼睛的特征,因此不应该为追求泛化性能而放弃全连接。
在CNN出现之前就有很多关键点检测的工作,大多是基于局部约束模型Constrained Local Model (CLM)的。作为传统方法,CLM和CNN有哪些差异和优劣,这些可能下次会有分享(咕咕咕~)。
网友评论