建议先读文献,再读一下别人的理解
- SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recog-nition
Spatial Pyramid Network
解决RCNN需要从 region proposals多次提取特征,用 SPP-net 抽一次特征,之后再分对应的 region proposals 要抽取的特征。
并且抽完的特征不用 crop 或者 warp,用多个pooling 层固定输出的大小。
(candidate object locations = region proposals)
输入图片不能随意大小的原因受限与全连接层,即使全连接层能根据feature map选择w的个数,但是训练的时候,每次w个数都要更改,或者反向传播都是问题。
- Fast R-CNN: Fast R-CNN
Fast R-CNN
重要改变: Region of Interest pooling layer
提高准确性
- Faster R-CNN: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(这篇建议直接看别人的讲解,论文讲的有点绕)
Faster R-CNN(实际是分步训练)
重要改进:对 Region proposals 的选择,建立了一个 Region Proposal Network。
anchor, 即原候选区。选完anchor之后,输出的anchor作为proposals.
网友评论