写在前面:因为是笔记所以省略了大量内容,初看建议请直接看论文或翻译。
本文也发布在:https://www.zybuluo.com/isfansiming/note/1281873
论文链接:https://arxiv.org/abs/1704.06857
有人翻译过,翻译得很好,这里给出链接:https://www.cnblogs.com/Jie-Liang/p/6902375.html posted on 2017-06-29 16:29 求索ljj
1.Abstract
- 本文是第一篇对利用深度学习技术的语义分割技术的综述
相比Beyond pixels:A comprehensive survey from bottom-up to semantic
image segmentation and cosegmentation, 2016
以及A survey of semantic segmentation,2016 - 应用: autonomous driving ,human-machine interaction , computational photography , image search engines , augmented reality
- Section 2.术语,背景知识
- Section 3.数据集、挑战和基准
- Section 4.现有方法及其贡献的综述(定性分析,从简单到复杂)
- Section 5.这些方法的结果和讨论(定量分析)
2.术语,背景知识
场景理解的演变(粗粒度->细粒度)2.1 常见架构
AlexNet\VGG\GoogLeNet\ResNet\ReNet,如下图
2.2 迁移学习 略
2.3 数据预处理和数据增强 略
VGG
GoogLeNet的Inception
ResNet
ReNet
3.数据集及竞赛
常见数据集表 1 常见的大规模分割数据集
详细参见论文或综述论文翻译- 求索ljj
4.方法(定性分析)
尽管FCN模型强大且灵活,它仍然有许多缺点从而限制其对于某些问题和情况的应用:
- FCN的空间不变性导致其没有考虑到全局上下文信息
- FCN没有默认考虑instance-awareness
- FCN的效率在高分辨率场景下远远达不到实时操作
- FCN不完全适合非结构性数据,如3D点云或模型。
这些问题和相应目前最优解决方法的综述总结如下表,方法的关系如下图
详细参见论文或综述论文翻译- 求索ljj
5.讨论(定量分析)
5.1评价指标
5.1 Execution Time
提供运行时间的同时给出系统运行的硬件信息,以及基准方法的配置
5.2 Memory Footprint
分割问题的重要指标(如应用在自动驾驶汽车、无人机、机器人)
5.3 Accuracy
假设有k+1类,p_ij表示将第i类分割为第j类的像素数量
-
像素准确率(PA):最简单的指标
-
像素准确率平均值(MPA):改进PA,按类取平均
-
平均交并比(MIoU):分割问题的标准评价指标,按类取平均
-
频率加权交并比(FWIoU):改进MIoU,每个类按重要性加权
5.2结果
5.1 RGB
5.2 2.5D
5.3 3D
5.4 Sequences
TABLE 6~16 见论文或综述论文翻译- 求索ljj
5.3总结
- 几乎没有论文报告运行时间与占用内存,多数方法关注准确率而忽视时间空间效率
- DeepLab是最可靠的方法,在几乎每个RGB图像数据集上都远远超过了其他方法。
- RNN如LSTM-CF在2.5维和多模态数据集上占主导。
- 三维数据的分割问题仍有很长的路要走
- 处理视频序列只有clockwise Convnet
5.4未来研究方向
- 三维数据集
- 序列数据集
- 使用图卷积网络(GCN)对点云进行分割
- 上下文知识
- 实时分割
- 存储空间
- 序列数据的时间一致性
- 多视角整合
网友评论