论文阅读——FingerNet: An Unified Deep

作者: 吃远 | 来源:发表于2020-08-16 17:05 被阅读0次

论文阅读——FingerNet: An Unified Deep
DEEP GRAPH INFOMAX 阅读笔记
25组-Deep Residual Learning for I
腾讯 “绝悟”论文披露技术细节。
单目深度估计系列：DORN论文阅读
安装pydencrf遇到的坑
[NLP论文笔记] Deep contextualized wo
2020-01-11 论文阅读
深度学习经典论文Top100 系列之优化-Dropout(1)
人工智能课程项目总结

一、摘要

指纹细节点(minutiae)特征的提取对于自动指纹识别系统至关重要。当前主流的细节点提取算法大都针对rolled/slap指纹图像设计，在对潜指纹进行预测时往往效果不佳，这是由于潜指纹往往包含复杂的背景噪声而难以提取清晰的嵴与峪等特征。

本文提出一种新的神经网络设计方法，将指纹领域先验知识与神经网络的强大表达能力相结合。对于细节点提取流程中的ROI分割、方向场估计、图像增强及特征提取等各个环节，本文均将其使用的传统方法（在rolled图像中表现较好的）用神经网络的形式实现，并证明该流程等效于一系列参数固定的浅层神经网络。接着本文在保证各模块可微的前提下对该浅层网络进行扩展，并用固定的参数值进行网络的权重初始化，以从潜指纹数据中学习复杂的背景变化。

在NIST SD27潜指纹数据库和FVC 2004注册slap指纹数据库上面的实验结果表明该方法比当下SOTA细节点提取算法性能更好。

二、方法

Basic idea：
将传统人工定制的指纹图像特征（称为domain knowledge）与深度神经网络的表达能力相结合。作者将传统细节点提取流程中几个模块的算法逐一用神经网络中的卷积及乘加运算（相当于权值固定的浅层网络）来实现，然后将各个模块进一步扩展，并以上述固定权重为初始值参与扩展后网络的初始化，进行端到端的模型训练。

作者认为这种方法训练出来的模型，效果至少不会比初始浅层神经网络（等效于由一系列传统算法组成的minutiae提取流程）性能差。

FingerNet结构

其他值得注意的idea：

使用多个可靠程度不同的"伪标签"，在训练中分配不同loss权重：
- 对于ROI segmentation和Orientation estimation两个模块，潜指纹数据集中往往没有现成的ROI和orientation label。
- 使用将潜指纹与对应同一个手指的rolled/slap图像进行对齐，然后将rolled/slap图像的orientation作为潜指纹的"weak orientation label"
- 利用潜指纹的minutiae标签，找出其组成的凸包，利用形态学操作进行膨胀、平滑之后的结果作为"weak segmentation label"
- 由于minutiae的方向往往和其周围ridge orientation一致，故对潜指纹图像的minutiae手动标记出方向，作为"strong orientation label"
对网络得到的segmentation score map，一方面与GT map求像素分类loss；另一方面为了平滑分割的边缘，将其拉普拉斯滤波之后的平均响应（滤波得到的边缘图像均值越大，代表score map边缘越不平滑？）作为smooth loss，和分类loss一起构成seg loss。参考下面代码段
回归角度时用discrete bin classification的方法提高鲁棒性。
在像素级分割任务中，为了解决前景、背景像素的unbalance问题，使用加权交叉熵损失

Seg loss

Weighted Cross Entropy in segmentation

三、评价：

本文介绍了一种比较直接的将传统算法流程转换为端到端神经网络的方法，很好地实现了将domain knowledge集成到神经网络的设计中。
本文作者对指纹特征提取及传统图像处理算法非常熟悉。第二部分阅读难度比较大，目前2.1.2中的公式、2.1.4中Gabor filter-based enhancement并不理解。

其他笔记

术语：
传统的指纹分割算法使用的handcrafted特征：

Gradient coherence（梯度连贯性）
The coherence gives a measure how well the gradients are pointing in the same direction.
Since a fingerprint mainly consists of parallel line structures, the coherence will be considerably higher in the foreground than in the background.

Gradient coherence
Local Mean
The mean gray value in the foreground is in general lower, i.e. darker gray, than it is in the background

Local mean
Local Variance
The variance of the ridge-valley structures in the foreground is higher than the variance of the noise in the background

Local variance

作者在某个数据集上面统计了前景和背景区域的这三种特征的分布，可以看出三种特征对于前景和背景具有明显区分性。

三种特征对于前景、背景的判别性

然后在1995年这篇论文中，作者利用这三种pixel feature直接训练一个pixel level linear classifier：
$v=w^Tx=w_0Coh+w_1Mean+w_2Var+w_3$
然后分割时对每个pixel apply这个classifier。[Coh Mean Var 1]^T可以看做分类所使用的特征向量 $x$ 。