简述
Pyramid Scene Parsing Network
作者为了引入足够的上下文信息以及不同感受野下的全局信息来提出global-scene-level的信息,即PSPNet
Links
代码:
效果图
输出结果图.png与传统方法FCN的比较
与FCN结果的比较与分析.png- Mismatched Relationship:上下文关系匹配对理解复杂场景很重要,例如在上图第一行,在水面上的大很可能是“boat”,而不是“car”。虽然“boat和“car”很像。FCN缺乏依据上下文推断的能力。
- Confusion Categories: 许多标签之间存在关联,可以通过标签之间的关系弥补。上图第二行,把摩天大厦的一部分识别为建筑物,这应该只是其中一个,而不是二者。这可以通过类别之间的关系弥补。
- Inconspicuous Classes:模型可能会忽略小的东西,而大的东西可能会超过FCN接收范围,从而导致不连续的预测。如上图第三行,枕头与被子材质一致,被识别成到一起了。为了提高不显眼东西的分割效果,应该注重小面积物体。
融合合适的全局特征,将局部和全局信息融合到一起
2017年之前效果最好的文章
提升结果的Trick
- Various data augmentation
- Dropout to the last convolution
- Using dilated convolution
- Learning rate policy
- Total iteration number
- Correct way to use batch normalization
- Larger cropsize and larger receptive field
(这里面使用了许多细节的trick使得效果比较好)
Evils in the details
Deeply supervise for better optimization
实施过程
系统简略图.png 详细网络结构图.png评价
- 此方法算是用了一些Trick来获得比赛的高分, 但是效果也很好
- Time consuming so that only useful for competitions
总的方法提升效果如下图所示:
提升效果汇总.png
网友评论