在训练深度网络的时候,采用多尺度训练能够提升模型的性能,概括来讲,主要方法有:
第一,建立图像金字塔,即直接处理图像,选取不同分辨率的图像,通过多个通道送进网络进行训练,最后再进行融合,该类方法的主要缺点是会大大地增加网络的参数量和计算量;
第二,在feature map上进行融合,例如FPN;
第三,令网络可以处理不同尺度的图像,该类方法的核心是取消全连接层,从而使网络摆脱对输入图像的分辨率限制:
(1) 使用Global Average Pooling构成全连接层,此时该全连接只与最后一层的feature map的数量有关,与feature map的大小无关;
(2) 直接使用卷积层作为输出,YOLO V2就是采用的这种策略。由于每个feature map是参数共享的,因此即便feature map的大小发生变换,采用的卷积核参数也是一致的,从而实现多尺度训练。
网友评论