美文网首页
[PaperNotes]Object Detectors Eme

[PaperNotes]Object Detectors Eme

作者: BetterCV | 来源:发表于2018-06-11 23:34 被阅读198次

    论文题目是Object detectors emerge in deep scene CNNs,是Bolei Zhou在读博期间发表在ICLR15上的文章:


    image.png

    文章的发现/要解决的问题

    从题目猜,说的是这么个事情:别看我训练的CNN是用于scene classification的,这个CNN其实很厉害的,还能用于object detection,因为它能提供location信息(尽管学习的过程中没有显式地给出bbox-level的监督信息)。

    相关工作

    ImageNet上的分类任务很成功,典型例子是AlexNet;其实呢,Scene classification问题比图像分类问题可能更加泛化,讲究的是图像中包含的多个物体(以及背景区域?)的整体所代表的“场景”,而不是单个物体,而用AlexNet这样的分类CNN发现也能取得不错的效果。也就是说,这个卷积网啊,在ImageNet和Places这两个数据集上,都好用诶。

    但是呢,毕竟一个是图像分类,一个是场景分类,其实还是有所差别。怎么体现这个差别呢?就从不同深度层上能产生最大activation的那些图片来对比吧,可以认为这些图片表达了ImageNet-CNN和Places-CNN对哪种类型图片的“喜好”:在靠前的层上大家喜好相同,但是靠后的层上则“分道扬镳”:


    image.png

    提出的创新/方法

    使用Places-CNN来做探究(因为它是做场景分类)。创新方法包括两个。一个是探究“网络学习到的特征表达的本质”,另一个是“。”

    探究网络学习到的特征表达的本质

    简化输入图像

    当网络能正确的对图片执行场景分类,那么我们考虑去掉图片中一些不重要的东西,也就是用尽可能少的东西来组成一个场景。这样的简化后的图,俗称minimal image representation.举个栗子:场景类别为“卧室”的,最简图像表达中通常包含床的区域;场景类别为“画廊”的,最简图像表达中的图像区域是墙壁上的画。我的理解:图像上不同物体区域,对于场景分类得分的贡献度是不同的。以bedroom, auditorium, art gallery, and dining room为例,原图和最简图像如下:

    image.png

    可视化有效感受野和activation pattern

    首先是给出了一个实际中有效感受野的计算方法,分3步:

    image.png
    image.png

    -3.


    image.png

    根据上述empirical RF的计算方法,得到的RF如下:


    image.png

    基于这个empirical RF,可以做分割:


    image.png

    (Bolei的文章给我的感觉是insight很充足,我觉得展开来的话这一节可能就可以写一篇顶会文章了。。)

    找出内部unit的语义

    这一小节的目的是理解和量化每个unit学出来的、准确的语义信息。

    具体使用了6种semantics来量化CNN的不同深度层上的信息。结果如下:

    image.png
    很容易看出来,靠后的网路层对于object的信息是很丰富的,并且呈现很好的正相关性。其他的semantics就不理会好了,反正呢,都不如object这种语义信息好。所以说,场景分类任务下的CNN孕育了目标检测器

    EMERGENCE OF OBJECTS AS THE INTERNAL REPRESENTATION

    这部分没有细看,主要是基于前一节的结论,探究具体每个类别的object语义信息最丰富等,属于follow-up的探究。反正,就是一些验证性的想法和实验了,佐证了场景分类任务CNN孕育目标检测器这个idea。

    相关文章

      网友评论

          本文标题:[PaperNotes]Object Detectors Eme

          本文链接:https://www.haomeiwen.com/subject/vqekeftx.html