视觉显著性研究概念
按照任务划分
注视点预测(Fixation Prection)
- 注视点检测任务关注场景中人第一次观看场景时注视点停留位置,也就是人第一眼看向哪里
- 注视点检测任务是一个历史悠久的研究话题,最早可以追溯到1990,它是来源于认知心理学研究
显著物体检测(Salient Object Detection)
- 显著物体检测任务是在场景中检测和分割显著性的物体,是object-level的任务
- SOD的研究历史不长,它更多的是一种视觉任务
FP与SOD的关系
- FP和SOD的saliency map完全不同
- FP和SOD有很紧密的关系,因为人在free-viewing模型下第一眼关注的对象一般是显著的物体
按照研究对象划分
RGB image saliency
对一张普通的RGB图像进行显著性分析
RGBD image saliency
RGBD图像相比于RGB图像,增加了一个depth通道,这个通道的每个像素值是传感器距离物体的实际距离
co-saliency
co-saliency 研究的是一组照片中共有且显著的物体,它的研究对象是图片组,它相对于单张照片的研究,增加了图片之间的一致性与相关性考量
video saliency
video saliency 是对video进行显著性分析,video可以看做所有帧图片的集合组,但是它相对于co-saliency增加了运动信息线索和时间信息。对于SOD来说,co-saliency检测的显著性物体是同一类,但video中检测的显著性物体往往是同一个物体,而且每一帧前后帧中这个物体的变化幅度较小
视觉显著性研究模型
传统的视觉显著性研究模型采用hand-craft特征来进行,但是这些模型不能获取high-level和semantic特征,所以效果并不理想,在2014/2015年以后深度学习技术的兴起,越来越多的模型采用深度学习技术提高更高层的特征信息,而且DNN中也可以更方便的融合多尺度多维度特征信息,因此显著性检测效果大大提高,因此我们现在更多的是去学习采用深度学习的模型。
从model设计的不同角度来看可划分
-
bottom-up/top-down思想角度
bottom-up的是数据驱动型,它直接提取底层线索例如颜色、纹理、形状等进行模型构建
top-down是任务驱动型,它带着特定任务的先验条件来获取线索,这会受具体任务和实验者等外部因素影响
目前主要采取的还是bottom-up的思想 -
supervised/non-supervised/weak-supervised model训练角度
FP model
FP在image方向的model
model | year | note |
---|---|---|
eDN | 2014 | |
DeepGaze I | 2014 | |
Mr-CNN | 2015 | |
DeepFix | 2015 | |
ML-Net | 2016 | |
JuntingNet and SalNet | 2016 | |
PDP | 2016 | |
DSCLRCN | 2016 | |
FOCUS | 2016 | |
SalGAN | 2017 | |
iSEEL | 2017 | |
DeepGaze II | 2017 | |
EML-Net | 2018 | |
DVA | 2018 | |
SAM Nets | 2018 |
FP在video方向的model
model | year | note |
---|---|---|
Bazzanii et.al. | 2016 | |
OM-CNN | 2017 | |
Leifman et.al. | 2017 | |
Two-stream network | 2018 | |
Gorji & Clark | 2018 | |
ACLNet | 2018 | |
SG-FCN | 2018 |
SOD model
SOD在image方向的model
SOD在co-saliency方向的model合集------来自参考文献[1]SOD在co-saliency方向的model
SOD在co-saliency方向的model合集1------来自参考文献[3] SOD在co-saliency方向的model合集2------来自参考文献[4]SOD在video方向的model
SOD在video方向的model合集------来自参考文献[4]视觉显著性研究数据集
FP数据集
FP在image方向数据集
image FP datasets------图片来自参考文献[1]FP在video方向数据集
video FP datasets------图片来自参考文献[1]SOD数据集
SOD在RGB image & RGBD image方向数据集
image SOD datasets整理1------来自参考文献[2] image SOD datasets整理2------来自参考文献[4]SOD在co-saliency方向数据集
co-saliency datasets整理1------来自参考文献[3] co-saliency datasets整理2------来自参考文献[4]SOD在video方向数据集
video SOD datasets------来自参考文献[4]视觉显著性研究metrics
FP的检测metrics
metrics | meaning |
---|---|
AUC-J | |
SIM | |
EMD ↓ | |
AUC-B | |
sAUC | |
CC | |
NSS | |
KL ↓ |
SOD的检测metrics
metrics | meaning |
---|---|
Presion-Recall(PR) Curve & F-measure | |
Receive Operator Characteristic (ROC) Curve and AUC Score | |
Mean Absolute Error (MAE) Score ↓ |
视觉显著性模型检测结果
FP model 检测结果
FP model在image上检测结果
image FP model在 MIT300上检测结果------来自参考文献[1]FP model在video检测结果
video FP model在各数据集上检测结果------来自参考文献[1]SOD model检测结果
SOD model在image上检测结果
image SOD model 检测结果------来自参考文献[2] image SOD model 在NJUD和NLPR数据集上检测结果------来自参考文献[4]SOD model在co-saliency上检测结果
co-saliency SOD model 在RGBD COSAL150和RGBD COSEG183数据集上检测结果------来自参考文献[4]SOD model在video上检测结果
video SOD model 在UVSD和DAVIS数据集上检测结果------来自参考文献[4]视觉显著性研究方向
FP和SOD共有
- 分析模型的失败案例,探索失败原因,探索数据集属性、特征对在模型上的影响
- 更能吸引注意力的是object区域还是low-level区域
- 图片转换如噪声旋转变形等对model的影响,关系到模型的鲁棒性
- 建立新的更大规模或者特殊场景下或者多形态多标签的数据集
- 更健全的评价标准(measure metrics)
- 与其他任务的结合和应用
- 对于co-saliency任务,图片内部的显著性差异性和图片间的一致性相似性权重选择
- 对于video saliency任务,如何更好地利用帧间信息和与运动信息,并将他们与每帧图像的特征结合分析
FP方向特有
- 收集数据的方式(用人眼移动追踪仪器还是鼠标点击收集)对模型的影响
- 分析数据集图片中目光、动作、手势等指示方向对FP的影响
- 分析数据集图片中群体和环境因素对FP的影响
SOD方向特有
- 收集更多high-level和samantic的特征
- 将high-level的特征与low-level特征相结合,让模型自行判断采取哪种特征更能检测到saliency object
参考文献
[1] 2018-TPAMI- Saliency Prediction in the Deep Learning Era:An Empirical Investigation
[2] 2019-arXiv-Salient Object Detection in the Deep Learning Era: An In-Depth Survey
[3] 2017-arXiv-A Review of Co-saliency Detection Algorithms: Fundamentals, Applications, and Challenges
[4] 2019-TCSVT-Review of Visual Saliency Detection with Comprehensive Information
[5] 2018-软件学报-视频显著性检测研究进展
[6] 2019-软件学报-视觉注意力检测综述
网友评论