OD_0_yolov1-v3全解析

作者: zestloveheart | 来源:发表于2019-04-11 21:44 被阅读0次

1. Introduction

yolo从v1-v2-v3做了一步步迭代，从速度、精度、强度都有了显著的提高。yolo的核心思想在v1中提出，在v2中结合其他研究者的工作做了各方面的改进，在v3中使用了许多技巧进一步优化。
yolo将以往目标检测的two stage方法缩减成one stage，它将以往region proposal的过程融合到后续的分类任务中，将目标的定位和分类用一个end to end的神经网络作为回归问题求解。
效果与其他网络对比起来，很快，背景误判率低，通用性强，但定位精准性稍差。

2. yolov1

总体流程

yolo先将图像切分成 $s*s$ 个grid（单元格），让每一个grid负责检测中心点落入该格的目标，预测出B个bounding box定位目标并给出目标类别。

bounding box中有一个5维坐标 $(x,y,w,h,C)$ ，分别代表框的位置、宽高、置信度。
x，y是bounding box中心位置相对于当前格子位置的偏移值，并且被归一化到0-1；
w和h是用原图的宽高进行归一化到0-1；
置信度反映当前框是否包含物体以及位置的准确性，计算为 $C = Pr(object) * IOU^{truth}_{pred}$ ，IOU也归一化到0-1。
整个模型输入是image，输出是 $S*S*(B*5+C)$ 的张量。

结构

yolo网络由24个卷积层和2个全连接层组成。卷积层用于提取特征，全连接层用于定位和分类。
它借鉴了googleNet的结构，但是未使用inception模块，仅用11和33卷积核简单替代，减小了模型的复杂度。

Loss

它的loss很简单又很巧妙，使用误差平方和（sum-square error）
$loss=\sum_{i=0}^{s^2}（coordError^2+iouError^2+classError^2$ 。
由于定位误差和分类误差对网络的loss的贡献值是不同的，因此加上了坐标误差权值 $\lambda_{coord}$ ，给无物体的IOU误差权值 $\lambda_{noobj}$ ；
又因为宽高错误对大物体的影响应该小于小物体的影响，所以给宽高加上了根号，但并不能完全解决这个问题。最后得到一个形式稍复杂一点的loss公式。

image.png

训练过程

预训练，使用前20个conv和1个ave pool和1个全连接做预训练。
用预训练得到的20层conv初始化yolo的前20层，为了提高精度，将输入图像从224*224 resize到448*448
使用了leaky ReLU，dropout，data augmentation
调整学习率。第一个epoch从0.001到0.01，然后0.01持续75epoch，0.001持续30epochs，0.0001持续30epochs

缺陷：

由于输出为全连接，所以输入图像分辨率大小都要一致
有很强的空间约束，每个格子只能预测一个目标。每个格子虽然有B个bounding box，但是只选择IOU最高的bounding box做预测，所以有B*5个坐标值，只有C个类别概率，输出为(B*5+C)，而不是B*(5+C)。
对小物体的预测不好
对于长宽比例的适应性不是太强

3. yolov2

yolov2提高了精度、速度、广泛度。

精度的提高主要表现在对recall的提高。做了以下的修改。

加上BN，并去除了其他正则化方法如dropout，保证不过拟合。
使用高分辨率的图像分类器，将预训练的图像从224*224直接转为448*448。
[图片上传中...(image.png-1ced27-1555252428685-0)]
加上了anchor机制
- 移除了最后的全连接（使用conv和GAP替代）和一个池化层（为了使分辨率不减小一半），使recall从81%加到了88%。将图像从448改成416，因为该网络最后是将图像缩小了32倍，416除32会得到一个奇数13，这样可以使每个grid有一个唯一的中心点而不是像偶数有4个。
- 由于传统anchor的大小比例是手动设置为(8,16,32)*(1:2,1:1,2:1)共9个，而如果能直接使用更好的anchor肯定会对网络效果有利。这里使用了一种改进的k-means算法来自动产生prior anchor（先验框）。在选择kmeans的距离时发现，L2距离在这个任务中不太适用。因为box尺寸大时其误差也会变大，而我们希望和尺寸关系较小，而和是否吻合ground truth较大，所以将距离函数设置为 d=1-IOU。在k定为5时，就取得了传统的9个anchor的效果；k=9时则远超传统anchor。
  
  image.png
  image.png
- 引入了anchor后，训练变得不稳定。改进了anchor的坐标公式，之前r-cnn中是全局的偏移，这里改成预测相对于grid的偏移。使用坐标公式：xy=该grid左上角相对于图片的偏移cxcy+预测的xy。wh=先验框的宽高*e^twth
  
  image.png
  image.png
为了得到细粒度特征，类似resnet的shortcut引入了passthrough层，直接将高像素特征和低像素特征concatenate，使多级别的特征在最后的预测中都起到效果，提高了小物体的正确率。
采用多尺度图片训练。把原先固定输入图片大小改成了动态调整输入图像大小，每10个batch就在range(320,608,32)中随机选出一个大小训练。这个操作强制让网络学习多个分辨率的图像，提高了适应性。

速度上，

提出了darknet19模型，19*卷积层+5max pooling+1GAP(global average pooling)，取得了很快的速度。

image.png

广泛度

主要体现在yolo9000可以对超过9000个类别的目标进行检测。引入了分层预测的机制，把类别标签从imagenet的横向改成了wordnet的图式构造。在预测一个物体时，逐层预测，使用条件概率，增加准确性。

image.png

4. yolov3

yolov3是增量式改动，也借鉴了他人的诸多工作，提出了darknet53模型。几个重点是：
1、多分类；2、多尺度；3、引入resnet。

定位上使用logistic regression

对anchor包围的部分进行评分，判定该位置是目标的可能性有多大。这一步是在predict之前进行的，可以去掉不必要anchor，可以减少计算量。
logistic回归就是用曲线对prior相对于 objectness score映射关系的线性建模。如果先验边界框与真实框的重叠度比之前的任何其他边界框都要好，则该值应该为1。如果先验边界框不是最好的，但确实与真实对象的重叠超过某个阈值(这里是0.5)，那么就忽略这次预测。YOLOv3只为每个真实对象分配一个边界框，如果先验边界框与真实对象不吻合，则不会产生坐标或类别预测损失，只会产生物体预测损失。

分类上不使用softmax，而采用logistic

支持多标签的预测，而非单标签。当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5，就表示属于该类。在loss函数中使用了二分类交叉熵。

多尺度预测（FPN）

将高维的特征和低维的特征连接，得到3层特征，对这三层特征分别做预测。每一个scale都输出 $S*S*B*(5+C)$ 替代了之前的 $S*S*(B*5+C)$ ，将v2中提到的k-means的k改成了9。

基于yolov2的结构，提出了darknet53

使用了residual block。用了更少的浮点运算，并且每秒浮点运算更高。
整个v3中，取消了池化层，图像缩小是通过改变卷积核步长实现的，想缩小一半边长，就设stride=2。在最后的输出层，借鉴了FPN（feature pyramid networks）采用多尺度对不同size的目标进行检测。

image.png

5. 参考

网友评论

目标检测从入门到入土

本文标题：OD_0_yolov1-v3全解析

本文链接：https://www.haomeiwen.com/subject/kvhfwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

OD_0_yolov1-v3全解析

1. Introduction

2. yolov1

总体流程

结构

Loss

训练过程

缺陷：

3. yolov2

精度的提高主要表现在对recall的提高。做了以下的修改。

速度上，

广泛度

4. yolov3

定位上使用logistic regression

分类上不使用softmax，而采用logistic

多尺度预测（FPN）

基于yolov2的结构，提出了darknet53

5. 参考

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

目标检测从入门到入土