美文网首页语义分割
语义分割(2)SPP net

语义分割(2)SPP net

作者: horsetif | 来源:发表于2018-06-13 10:29 被阅读10次

    Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    这篇paper的重点是可以把任意尺度的图片变为一个固定长度的表示。传统的RCNN或者其他DL的方法都是把输入照片作wrap或者crop,但是这样一定会出现unwanted geometric distortion.作者发现在卷积层是不需要尺度变化的,只有在全连接层才需要特定的尺度。所以作者在全连接层最后加入SPP layer(借鉴的事sptial pyramid pooling)。在训练的时候,作者使用的是多尺度循环训练法。

    作者发现feature map 不仅仅表示的是feature的强度,还有feature的位置。所以在最后一层加入SPP,归一化为同一个长度【1】。

    怎么去train?

    其实就是把集中不同的max pooling 合在一起,window size=ceiling(a/n),stride=floor(a/n),文中一共提到三种。然后循环两种尺度的epoch进行训练,得到的结果就有普遍意义。

    object detection

    在RCNN时候,每一个region proposal都要单独训练一次,有很大的空间浪费,主要是由于尺度的问题。在这里,我们直接可以只计算一次,得到一个feature map,(卷机层的最后一层),然后我们通过select search的方法找到的region proposal,找到每一个对应位置对应的feature map,然后经过SPP layer,最后得到编码,run svm,就可以得到结果。这里只需要CNN一次就可以。

    缺点

    select search的方法很慢,svm很慢。网络训练非常复杂。

    参考:

    【1】“Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories” CVPR 2006

    相关文章

      网友评论

        本文标题:语义分割(2)SPP net

        本文链接:https://www.haomeiwen.com/subject/csadeftx.html