论文题目是Object detectors emerge in deep scene CNNs,是Bolei Zhou在读博期间发表在ICLR15上的文章:
image.png
文章的发现/要解决的问题
从题目猜,说的是这么个事情:别看我训练的CNN是用于scene classification的,这个CNN其实很厉害的,还能用于object detection,因为它能提供location信息(尽管学习的过程中没有显式地给出bbox-level的监督信息)。
相关工作
ImageNet上的分类任务很成功,典型例子是AlexNet;其实呢,Scene classification问题比图像分类问题可能更加泛化,讲究的是图像中包含的多个物体(以及背景区域?)的整体所代表的“场景”,而不是单个物体,而用AlexNet这样的分类CNN发现也能取得不错的效果。也就是说,这个卷积网啊,在ImageNet和Places这两个数据集上,都好用诶。
但是呢,毕竟一个是图像分类,一个是场景分类,其实还是有所差别。怎么体现这个差别呢?就从不同深度层上能产生最大activation的那些图片来对比吧,可以认为这些图片表达了ImageNet-CNN和Places-CNN对哪种类型图片的“喜好”:在靠前的层上大家喜好相同,但是靠后的层上则“分道扬镳”:
image.png
提出的创新/方法
使用Places-CNN来做探究(因为它是做场景分类)。创新方法包括两个。一个是探究“网络学习到的特征表达的本质”,另一个是“。”
探究网络学习到的特征表达的本质
简化输入图像
当网络能正确的对图片执行场景分类,那么我们考虑去掉图片中一些不重要的东西,也就是用尽可能少的东西来组成一个场景。这样的简化后的图,俗称minimal image representation.举个栗子:场景类别为“卧室”的,最简图像表达中通常包含床的区域;场景类别为“画廊”的,最简图像表达中的图像区域是墙壁上的画。我的理解:图像上不同物体区域,对于场景分类得分的贡献度是不同的。以bedroom, auditorium, art gallery, and dining room为例,原图和最简图像如下:
可视化有效感受野和activation pattern
首先是给出了一个实际中有效感受野的计算方法,分3步:
-3.
image.png
根据上述empirical RF的计算方法,得到的RF如下:
image.png
基于这个empirical RF,可以做分割:
image.png
(Bolei的文章给我的感觉是insight很充足,我觉得展开来的话这一节可能就可以写一篇顶会文章了。。)
找出内部unit的语义
这一小节的目的是理解和量化每个unit学出来的、准确的语义信息。
具体使用了6种semantics来量化CNN的不同深度层上的信息。结果如下:
很容易看出来,靠后的网路层对于object的信息是很丰富的,并且呈现很好的正相关性。其他的semantics就不理会好了,反正呢,都不如object这种语义信息好。所以说,场景分类任务下的CNN孕育了目标检测器。
EMERGENCE OF OBJECTS AS THE INTERNAL REPRESENTATION
这部分没有细看,主要是基于前一节的结论,探究具体每个类别的object语义信息最丰富等,属于follow-up的探究。反正,就是一些验证性的想法和实验了,佐证了场景分类任务CNN孕育目标检测器这个idea。
网友评论