下采样(降采样):缩小图像。目的1:使图像符合显示区域的大小。2生成对应图像的缩略图
上采样(放大图像,图像插值): 放大原图像。目的1:使图像显示在更高分辨率的显示器上。
主干网络:主干网络用来从原始图像输入特征提取。一般来说会用预先训练好的网络(VGG,ResNet)来提取特征
confidence:置信度
ground truth :标准值
5个不同的卷积层,用两个不同的33卷积核做卷积。输出两个feature map。一个输出分类用的confidence,每个default box 生成21个类别的confidence。一个输出回归用的localization,每个default box生成四个边界值。
假设每个feature map cell有k个default box,那么对于每个default box都需要预测c个类别score和4个offset,那么如果一个feature map的大小是m×n,也就是有mn个feature map cell,那么这个feature map就一共有(c+4)k * mn 个输出。
训练中还有一个东西:prior box,是指实际中选择的default box(每一个feature map cell 不是k个default box都取)。
训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。
网友评论