SSD的网络分为两部分,前半部分是用于图像分类的标准网络(去掉了分类相关的层),后面的网络是用于检测的多尺度特征映射层,从而达到检测不同大小的目标。SSD在保持YOLO高速的同时效果也提升很多,主要是借鉴了Faster R-CNN中的Anchor机制,取消了提取proposal的过程,同时使用了多尺度的feature map。
SSD vs YOLOSSD的做法非常直接,既然提取proposal之后仍然要做分类和边界回归,那么不如直接认为feature map上的每一个位置都可能是建议区域,这样一来就可以不用提取proposal了。另外,提取proposal时Anchor机制还可以继续使用,只不过defaut box的尺度多样性体现在不同尺度的feature map上。
SSD在多尺度的feature map上做检测可以同时兼顾大目标和小目标。上图 (a) 表示带有两个Ground Truth边框的输入图片,图 (b) 和 (c) 分别表示8×8网格和4×4网格,显然前者适合检测小的目标,比如图片中的猫,后者适合检测大的目标,比如图片中的狗。在每个格子上有一系列固定大小的Box,这些在SSD称为Default Box,用来框定目标物体的位置,在训练的时候Ground Truth会赋予给某个固定的Box,比如图(b)中的蓝框和图(c)中的红框。
网友评论