YOLOv3：从代码到模型

作者: 快乐的二叉树 | 来源:发表于2020-04-02 19:01 被阅读0次

YOLOv3：从代码到模型
Tensorflow版本yolo v3源码阅读笔记(2)
Tensorflow版本yolo v3源码阅读笔记(3)
【从零开始学习YOLOv3】6. 模型构建中的YOLOLayer
yolo
【AlexeyAB DarkNet框架解析】九，YOLOV3损失
深入理解 Java 内存模型
5. Jetson-TX2 跑YOLOv3
基于树莓派与YOLOv3模型的人体目标检测小车（四）
目标检测 YOLOv3 论文翻译（高质量版）

目标检测应用的学习，YOLOv3的模型原理和代码理解，数据集为VOC，框架为tensorflow。内容仅是个人学习过程中的理解，如有不对感谢指正！

代码先跑起来

0、源码下载地址：https://github.com/YunYang1994/tensorflow-yolov3

主要文件说明：
+--core
| --backbone.py：DarkNet53网络结构
| --common.py：卷积、残差等方法的定义
| --config.py：参数设置，包括数据和模型路径
| --dataset.py：数据集处理
| --yolov3.py：整体网络架构
+--scripts
| --voc_annotation.py：生成数据集的txt标注文件
+--mAP
| --main.py：可视化展示各个类别的mAP
--train.py：训练模型主程序
--convert_weight.py：将预训练好的模型参数导入
--freeze_graph.py：将保存下来的模型转成pb文件
--image_demo.py：输入一张图片，输出检测结果图
--evaluate.py：模型测试，生成预测结果的文件
1、准备数据集
直接贴上作者的代码注释：

先下载voc数据集的三部分，包括两个训练集和一个测试集，再分别解压，把/dataset文件夹下的VOC/整理成图中的结构方便程序调用，运行voc_annotation.py，生成训练和测试两个txt文件，最后在config.py中把这两个文件的路径改对。
2、训练模型
运行train.py，迭代30次后在checkpoint文件夹中保存了最后的模型。
3、单个图片测试
先运行freeze_graph.py，把ckpt文件转换成pb文件，文件头的ckpt_file要改成最后保存的模型路径，然后运行，总目录下会生成一个pb文件。
运行image_demo.py，文件头的pb_file路径就是刚生成的pb文件，image_path设置为想要测试的图片路径，需要核对input_size是否合适。

从代码学习模型

一、数据输入

1、数据预处理
从数据集中的图片开始，如上文所述，先运行了一个voc_annotation.py，这段程序对放置好的三个训练和测试集文件做了以下几个操作，以其中一个文件为例：
1、从该文件下/ImagesSet/Main/中得到所有图片的索引字符串，也就是对应图片文件夹中每张图片的名字（不带后缀）；
2、根据得到的索引遍历每张图片和它对应的标注信息，它们分别放在/JPEGImages和/Annotations文件夹下;
3、把每张图片的路径和对应标注信息拼接起来，标注信息中包含所有的真实检测框，每个框用五个值来表示（x,y,w,h,Class）；
4、把拼接好的信息存储，写成txt文件中的一行。
运行结束后dataset/文件夹下会得到两个txt文件，分别是训练和测试的数据信息：

图片路径+（检测框位置+框内物体类别）

2、数据读取
训练模型时读取刚刚保存下来的voc_train.txt文件，在每次迭代周期内，利用迭代器得到每个batch的数据，数据格式如下：

每次迭代输入一个batch的数据

其中bs设置为6，416是图片的尺寸，label中的30代表输出标签的维度，3是每个特征点的anchor数，而25则是（bbox位置4+bbox置信度1+bbox物体类别20），bbox中的150是可以容纳bbox的最大数量。在这里把txt文件中的每一行数据做了两个操作：
1、按照图片路径把图片读取进来，作为input_data；
2、把每个特征框分别和三个尺度的anchors做iou，iou值大于某个阈值时，就可以认为这个框属于当前的bbox类（s、m或l），从而将每张图片的bbox归为三类，以及对应的三种标签。
input_data用于输入backbone网络得到预测框，得到的预测框也会有三种尺度，再和对应尺度的真实bbox和label计算loss。

二、得到预测框

1、网络结构

YOLOv3的网络结构很多博客里讲的十分详细，采用了darknet-53的前52层，去掉了下图中后三层结构（平均池化、全连接和softmax）。backbone为全卷积结构，使用了大量的残差跳层；并且为了降低池化带来的梯度负面效果，直接放弃了Pooling，通过将卷积的步长设置为2来实现2倍的降采样；为了实现多个尺度的检测精度，把不同层的输出都送入后续的检测网络，类似FPN的尺度融合，分别对应着sbbox、mbbox和lbbox。

从scale3到scale1，特征图的尺寸分别为[bs,52,52,256]、[bs,26,26,512]、[bs,13,13,1024]，感受野从小到大，能检测的目标大小也越来越大。三个scale特征图输出后再经过卷积和拼合，得到了三个尺度的检测输出，即yolov3.py文件中__build_network()的输出：

三个卷积输出代表着将图片划分成不同数目的网格后，每个网格延伸出的预测框结果。以conv_lbbox为例，batchsize先不管，那么这个三维矩阵的其中两维是[13,13]，代表着把原图经过卷积运算，划分成了13*13的网格，每个网格以自身为中心会生成三个anchors（相当于预先设定好的先验预测框，网络的输出实际上是这些先验框的偏移量），每个anchor的预测参数有：（4个坐标偏移量，1个目标置信度，20个类别预测），每个网格3个anchor，因此每个网格都对应着3*（4+1+20）=75个值。

2、Bounding box相关

anchor先验框的设定
对于三种感受野的网格图，其对应的anchors尺寸也是不一样的：网格数目少，感受野较大的特征图，用于检测较大目标，anchor的尺寸也比较大；网格数目多，感受野较小的特征图，用于检测较小目标，anchor的尺寸相应比较小。

网格数不同时，anchors能框到的大小，蓝色代表anchor，黄色代表groundtruth

anchor具体尺寸的设定，则是根据训练集的真实检测框经过聚类得到的，这样能够给模型一个更合适的先验框，避免了手动设定时和数据集不匹配的问题。VOC数据集使用的anchor先验尺寸如下：

代码中没有聚类的操作，这些尺寸信息直接从一个txt文件中读取

s、m和l代表三种尺寸的网格图，每个网格生成三个先验框。因为框的中心点已经确定，就是所在网格的中心，所以每个先验框只用两个数值来表示，即宽和高。可以看到感受野越大的网格图，对应先验框就越大。
预测偏移量
在YOLOv2中作者提到，faster R-CNN的anchor机制存在线性回归的不稳定性，因为回归的offset可以使box偏移到图片的任何地方，所以就改用预测相对位置的方法。因此每个预测框的4个位置值分别代表：预测框的中心点相对于所在网格单元左上角的相对偏移量tx、ty，和预测框的宽和高相对于先验框的宽和高的偏移量tw、th。

蓝色实线框为预测框，黑色虚线框为先验框

如图所示， $c_x$ 和 $c_y$ 是当前网格左上角的坐标， $p_w$ 和 $p_h$ 是当前网格先验框的宽和高，那么模型输出的每个预测框，都用 $t_x,t_y,p_w,p_h$ 四个值来表示。首先，用sigmoid函数把 $t_x$ 和 $t_y$ 的值约束在0到1之间，再把这个偏移量加到网格左上角的坐标上，就得到了预测框的中心点，sigmoid函数让偏移量始终小于1，这样预测框的中心也就基本保持在网格内；然后把宽和高的预测值 $p_w$ 和 $p_h$ 经过指数变换，乘到先验框的宽和高上，得到了预测框的宽和高。
注意这里得到的 $b_x,b_y,b_w,b_h$ ，都是相对于这张特征图的坐标，并不是在图片中检测框的真正位置。要得到图片中检测框的位置，还需要根据特征图的宽高和图片的宽高，做等比例的坐标变换：
$real_x=b_x/W_f*W_p$
$real_y=b_y/H_f*H_p$
$real_w=b_w/W_f*W_p$
$real_h=b_h/H_f*H_p$
voc数据集中图片的宽高相等，特征图的宽高也相等，因此可以直接在 $b_x,b_y,b_w,b_h$ 上乘一个系数，就得到了图片上检测框的真正位置。已知三种不同尺寸的输出特征图分别是下采样8倍、16倍和32倍的结果，所以把得到的 $b_x,b_y,b_w,b_h$ 乘上相应的下采样倍数即可。

红框内是网络输出的预测，蓝框是乘以下采样的倍数，最后得到检测框的实际位置

三、计算损失

模型的损失包括三种，分别是边界框损失(giou_loss)、是否包含目标的置信度损失(conf_loss)以及具体类别的分类损失(prob_loss)。
1、边界框损失

首先看一下GIoU的前身IoU，即两个检测框的交并比。IoU的计算方式是，两个检测框的交集比上他们的并集，是0到1之间的某个值，交并比越大说明两个检测框重合度越高。
$IoU=\frac{A\bigcap B}{A\bigcup B}$
但是IoU作为损失函数时有一个问题，它只能简单地反映两个检测框的重叠程度，当两个框没有相交时，IoU无法表示它们的距离，而且当两个框的IoU值相同时，实际检测框的位置可以有很多种可能：

IoU相同，但是检测框位置不同

因此，基于IoU存在的问题，YOLOv3中使用GIoU作为检测框的损失函数，其计算方式为:
$GIoU=IoU-\frac{|C-A\bigcup B|}{|C|}$

其中 $C$ 代表 $A$ 和 $B$ 的最小外接矩形的面积，这种度量方式解决了两个检测框没有相交时，无法比较两个图像的距离远近的问题。

所以，第一项损失就是模型输出的预测框和真实标注框之间的GIoU距离，在代码中实现方法为：

其中，respond_bbox是指每个网格是否对这个真实标注框负责，也就是是否包含中心落在这个网格的检测框，包含为1，不包含为0，这是在数据标注的过程中处理好的，dataset.py的代码中对应方法为：

也就是只要当前网格产生的3个先验框中，和目标真实框的IoU大于阈值（图中阈值为0.3）的就为正样本，置信度设为1，如果3个先验框的IoU都小于阈值，那么这里面和目标IoU最大的标注为正样本。所以，当网格负责这个标注框时，后续的giou损失才有效，当不负责时，整个loss就为0，不参与loss计算。
另一个bbox_loss_scale指的是，给goiu_loss加的权重，它的计算方式就在图中上一行，可以理解为：
$bbox\_loss\_scale=2-1*\frac{bbox\_area}{image\_area}$

因此，当网格对某个真实标注框负责，并且预测框相对于图片的比例越小，对应的损失权重就越大，总体效果就是增加了小目标的检测精度。
2、置信度损失
第二项置信度损失，就是上述每个网格是否对这个真实标注框负责的准确度评价，不管当前网格内有没有负责目标，都需要计算当前的判断是否准确。

红框内表示和真实框IoU>0.5的预测框不参与置信度计算

模型采用输出置信度conv_raw_conf和真实标注信息respond_bbox的交叉熵来计算置信度：当网格的预测框包含物体时，应遵循真实标注信息respond_bbox的标签权重，标签为1时才有值；当网格预测框没有物体时，这时标签权重为(1-respond_bbox)*weight，多乘了一个weight，可以理解为把IoU匹配结果较差的预测框也排除掉，不计算它的置信度损失。
把这两种情况下的交叉熵损失加起来，再乘以一个focal权重，代码中conf_focal等于预测置信度pred_conf和真实标注信息respond_bbox的均方误差，最后就得到了总体的置信度损失。
3、分类损失
分类损失也采用了交叉熵的计算方式，当所在网格有负责检测框时，计算真实类别标签和预测类别的sigmoid交叉熵。这里采用了sigmoid而不是softmax，把每个类别的判定都看做二分类的判定，即是属于还是不属于这个类，这样做的好处是可以允许一个框同属于多个类别。

最后，把这三种loss加起来作为最后的迭代损失，参与模型更新。

图中构成总loss的每一项损失，都是三个尺度预测框损失的和，也即三种尺度的先验框各自独立计算损失函数。而特征融合，是把darknet输出的三种特征图相继整合再卷积，得到不同感受野的预测结果，在测试时则需要统一考虑三种预测结果。

四、测试图片

目前为止YOLOv3的训练过程基本上结束了，从数据准备、模型运行到损失迭代大致能够连通思路，接下来看看测试时是如何工作的。
1、输入图片
读取一张图片，将其整理成[1,416,416,3]的形式，作为input_data送入模型。
2、得到预测输出
模型运行后会得到三种不同尺度的预测框集合，即sbbox、mbbox和lbbox，每个集合里面都包含了在当前感受野下的一个或多个预测框。
3、结果筛选
得到了很多检测框，有可能包含一些重复的、越界的或置信度很低的框框，所以需要对它们进行筛选，这里筛选分为两步：
第一，直接按照几个规则去掉不合格的检测框，比如检测框超过了图片边界的，还有置信度低于0.3的，这些明显不是正确答案的检测框先排除；
第二，对剩下的框进行非极大值抑制（NMS）处理，算法流程为：

假设一共有n个候选框，根据预测的置信度从大到小排列。
1、从最大的置信度的box开始，分别判断其余的box与最大置信度的box的IoU值，大于阈值时则丢弃，小于阈值则保留，同时保留最大置信度的box；
2、在剩余的box内再次选置信度最大的并标记保留，与剩下的box做与第一步的相同的操作，就这样直到找到满足条件所有的保留框。

代码中IoU的阈值设为0.45，处理过程中每个候选框要么作为当前置信度最高的框被保留，要么在和最优候选框的IoU对比时被淘汰，一直这样操作直到把候选框清零，被保留下来的框就是最后检测的结果啦。
拿两张图片试试：

因为这个模型是直接从头开始训练的，没有加载预训练的参数，所以在有些物体的识别上还存在一些误差。

结束！

参考博客

1、yolo系列之yolo v3【深度解析】
2、一文看懂YOLO v3
3、深度学习笔记（十三）YOLO V3 (Tensorflow)
3、yolov3损失函数

YOLOv3：从代码到模型
目标检测应用的学习，YOLOv3的模型原理和代码理解，数据集为VOC，框架为tensorflow。内容仅是个人学习...
Tensorflow版本yolo v3源码阅读笔记(2)
在上一篇中学习了yolov3中的darknet53模型，在这一篇中我们继续来分析yolov3的源代码。需要说明的...
Tensorflow版本yolo v3源码阅读笔记(3)
了解了yolov3模型和损失函数的计算后，我们来分析yolov3训练和测试数据集的制作代码。这里有必要说明一下，...
【从零开始学习YOLOv3】6. 模型构建中的YOLOLayer
前言：上次讲了YOLOv3中的模型构建，从头到尾理了一遍从cfg读取到模型整个构建的过程。其中模型构建中最重要的Y...
yolo
https://pjreddie.com/darknet/yolo/ 一、是什么从YOLOv1到YOLOv3，目标...
【AlexeyAB DarkNet框架解析】九，YOLOV3损失
前言前面已经讲完了YOLOV1/V2的损失函数代码解析，今天为大家带来YOLOv3的损失函数解析。YOLOV3的...
深入理解 Java 内存模型
深入理解 Java 内存模型（一）从Java代码到CPU指令最开始，我们编写Java代码，是java文件。在...
5. Jetson-TX2 跑YOLOv3
YOLOv3的论文我还没看，不过早闻大名，这个模型应该是现在目标检测领域能够顾全精度和精度的最好的模型之一，模型在...
基于树莓派与YOLOv3模型的人体目标检测小车（四）
前面几篇文章完成了训练端和部署端的环境搭建以及模型的训练，并经过两次模型转化最终将YOLOv3 TINY模型部署在...
目标检测 YOLOv3 论文翻译（高质量版）
基于工作中对某某证券项目中，使用到了场景识别模型。模型采用的 YOLOv3，因此花了些时间研究了这篇论文，本人查了...

YOLOv3：从代码到模型

代码先跑起来

从代码学习模型

一、数据输入

二、得到预测框

1、网络结构

2、Bounding box相关

三、计算损失

四、测试图片

参考博客

相关文章

YOLOv3：从代码到模型

Tensorflow版本yolo v3源码阅读笔记(2)

Tensorflow版本yolo v3源码阅读笔记(3)

【从零开始学习YOLOv3】6. 模型构建中的YOLOLayer

yolo

【AlexeyAB DarkNet框架解析】九，YOLOV3损失

深入理解 Java 内存模型

5. Jetson-TX2 跑YOLOv3

基于树莓派与YOLOv3模型的人体目标检测小车（四）

目标检测 YOLOv3 论文翻译（高质量版）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读