简单的对比了下几种人脸检测(物体检测方法)
[1] | FCOS | CenterFace | KPNet | LFFD | FSAF | |
---|---|---|---|---|---|---|
确定正负样本 | 物体中心点在格子内 | 点落在bbox内 | heatmap | heatmap | 点落在bbox内 | 点落在bbox中心点附近区域 |
人脸(物体)框 | - | 根据中心点到四点的距离计算 | heatmap提供中心点,加上scale和offset计算 | 由关键点推导 | 根据中心点到四点的距离计算 | 根据中心点到四点的距离计算 |
处理正负样本不均衡 | - | 可以利用尽可能多的正样本 | - | - | 负样本的loss只回传topk | - |
检测不同尺度的物体 | 多尺度输出 | 不同的通道预测不同的尺度 | scale分支处理不同大小的物体 | 多尺度输出 | 多尺度输出 | 多尺度输出 |
独特之处 | 同时解决人脸检测和3DMM参数估计问题 | centerness分支 | - | 1.用不同的通道来表示不同的物体scale,2.根据关键点推导人脸框,3.bounding box perturbation(bbox的corner点在bbox size内随机扰动5%) | 1.感受野是天然的anchor,2.random sampling for each scale | 根据内容而非尺度选择用于回归的特征层 |
样本增广 | random scaling in the range [0.8,1.2], random translation of 0-10%, color jitter, in-plane rotation | - | 随机翻转,随机缩放,color jittering,随机crop | 随机旋转,随机翻转,高斯模糊,bounding box perturbation(bbox的corner点在bbox size内随机扰动5%) | color disort,random sampling for each scale, random horizontal flip | 水平翻转 |
backbone | Tiny DarkNet | ResNet | mobilenetv2+FPN | 自设计 | 自设计 | - |
优势 | Google Pixels上只需39ms | CPU速度30FPS(VGA),FDDB mAP 98%,实际效果可见 | 回归目标是标注相对准确的关键点,避免了标注框模糊问题 | 实际效果可见 | ||
缺点/风险 | - | 效果未知 | 训练时间比较长(5天) |
paper:
- [1]Joint Face Detection and Facial Motion Retargeting for Multiple Faces
- [FCOS]FCOS: Fully Convolutional One-Stage Object Detection
- [CenterFace]CenterFace: Joint Face Detection and Alignment Using Face as Point
- [KPNet]KPNet: Towards Minimal Face Detector
- [LFFD]LFFD: A Light and Fast Face Detector for Edge Devices
- [FSAF]Feature Selective Anchor-Free Module for Single-Shot Object Detection
网友评论