目标检测系列——从定位器到YOLO

作者: 吃远 | 来源:发表于2019-01-29 00:03 被阅读0次

目标检测系列——从定位器到YOLO
目标检测YOLO系列——YOLO v3
目标检测之YOLO-You Only Look Once（一）
吴恩达深度学习：目标检测之YOLO算法
Yolo-Darknet的安装和使用
目标检测 YOLO系列——YOLO v1
目标检测YOLO系列——YOLO v2
YOLO_Online 将深度学习最火的目标检测做成在线服务实战
YOLO算法
SSD: 快速而准确的端到端目标检测模型

一、概述

最近有点时间，打算把前一阵子学习的目标检测相关的内容梳理一下。这个系列涉及到一些原理的回顾，简单的代码和实验结果，以及一些实际项目中有待解决的疑问。考虑到YOLO是像我这样的新手的最爱，所以本文——作为目标检测系列笔记的第一篇——就先从YOLO1的内容开始梳理。

众所周知，此前最成功的目标检测器都是分类模型的变体。无论是CNN或者级联弱分类器（如决策树）滑动窗也好，region proposal也好，它们的本质都是在每个不同尺度的可能区域上运行一个分类器。而YOLO最大的特点在于，其将目标检测任务从分类任务转变成回归任务，从而省去了region proposal'的过程，成为端到端的一阶检测器。

我们可以先试图从宏观上比较下两种检测模型：

①分类器变体的检测器，由于region proposal的存在，速度上存在天然的劣势。因此如果开发环境是嵌入式系统或者笔记本cpu，一般不会考虑使用。这里另外分享一个经验，也是我之前一直纠结的问题：YOLO3究竟能不能在笔记本cpu甚至是嵌入式系统上达到实时？根据上次张钊宁老师在极市直播中给出的说法是，没有问题。当然这个需要我们进行一番改造，直接拿着yolo主干网络肯定是不行的，至于tiny yolo，我自己只有一次不太成功的尝试经验。业界比较主流的说法是拿MobileNetV2等模型作为主干网络，参考上面的直播，张老师也分享了一些自己的改造tricks。另外前几天好像出来一篇论文就是MobileNet YOLO3，可能也是面向这一类应用场景。回头可以详细了解一下。

②Local context V.S. Global context. 由于分类器变体的检测器通常是在全图的子区域上进行分类，每次分类看到的图片context只是一个很小的区域，而YOLO送入每张图片进行检测时看到的总是整个图像，因此前者对应的是局部context，而YOLO对应的是全局的context。因此YOLO相比前一类检测器，将背景误判为目标的概率要小很多，即precision更高。

③候选区域的全面性。YOLO算法由于其对选区的固有限制，难免会漏掉一些较小的区域。因此YOLO对遮挡或者小目标的检测效果不如二阶检测器，即recall较低。

说了这么多，其实还是停留在直觉层面。更深入的理解还需要实验来佐证。在开始详细梳理YOLO算法之前，我想先做一个关于回归型检测器的简单实验——简单到什么程度呢，就是把一张图片送入模型，只输出4个坐标（即只有一种类别），以此来对目标进行localization。故这个模型与其说是检测器，不如说是定位器localizator。具体实验及分析见下一部分。

二、前戏——图像回归与检测任务

2.1. 理论介绍

这一部分以手部检测任务为例，最终目的是获得手部外接矩形框的四个坐标信息（左上+右下或者中点+宽高）。因此最直接的想法是，将输入图像通过CNN提取特征之后，直接将最后的特征图通过全连接层回归到一个特定维数的向量，如最简单的，每个图像回归到一个四维向量，分别代表 [x,y,w,h] 四个坐标信息。然后这四个预测的坐标信息和label中的四个坐标信息求简单的 l2loss，促使网络不断学习目标的位置。

在开始实验之前，我们可以先预料一下这个模型有哪些缺陷。首先，由于固定维度的FC层的使用，模型的输出一定是非常不灵活的。比如我们把上一段话中的任务扩展到多个类别和多个目标的场景：
假如每个目标可能属于三种类别，加上置信度，则该目标对应标签为3+1+4=8个维度。若图像中最多有三个目标，则FC层输出维度为3 * 8 = 24维。在此基础上训练网络模型。标签设置时，小于三个目标的样本图像，可以将后16个维度设为-1，即无意义。但是当图像中出现多于三个目标时，该模型将无法检测额外的目标。因此，如果我们事先不知道目标的最大可能个数，我们就无法确定FC的输出维度。当然我们可以试着用一个很长的FC来覆盖一个很大目标数目的情况，理论上这样是可行的。除了增大一些计算量，这样做理论上有什么缺陷？其实我暂时也想不出来...感兴趣的同学可以尝试下。不过相信下面的实验结果已经足够说明localization的问题了。

另一个问题是，这个localizator能否较好得收敛从而在这个简单场景下带来较高的准确率？

2.2 实验

实验部分比较简单，考虑到任务非常单一，我使用了Gluon自带的resnet18模型作为骨干网络（有兴趣的同学可以尝试替换为稍微复杂点的模型）。从数据迭代器的准备到模型定义和训练的代码我都放在一个完整的notebook中，大家可以参考。

这里放一些实验结果（为了保护同事隐私，面部已打上马赛克）：

Fig. 1. Localizator结果 1

Fig. 2. Localizator结果 2

Fig. 3. Localizator结果 3

Fig. 4. Localizator结果 4

Fig. 5. Localizator结果 5

为了检查loss函数的约束能力，当时计算了上面预测样例与各自对应groundtruth box的l2loss值。上面五个样例的loss值依次为：

0.00031679，0.00040884, 0.00387251, 0.01736045, 0.00165691

对测试集大量样本进行上述观察发现：当loss小至0.001以下时，检测结果是可以接受的；当loss大于0.01时，检测结果明显比较糟糕; loss在0.001 - 0.01之间的，一般看起来不是很完美但是也说的过去的.. 不过第三种结果出现的次数最多。
总结：loss的约束能力正常，即loss大的结果差，loss小的结果好。但是问题在于，loss很难进一步下降了。

2.3 分析

上面的localization 实验中存在的第一个明显的问题，就是未考虑大目标和小目标在计算loss时的差异。

考虑两种大小的box，假设其label和pred：①[0.4,0.5,0.6,0.6], [0.4,0.5,0.5,0.5] ②[0.4,0.5,0.1,0.1], [0.4,0.5,0.15,0.15]若直接使用l2loss：则① $0.1^2 * 2 = 0.02$ ； ② $0.05^2*2 = 0.005$ 。 即尺寸较小的box，loss明显小于loss较大的box。然而实际情况是，小box的相对偏移量更大： ① $(0.6-0.5)/0.5 = 0.2$ ; ② $(0.15-0.1)/0.1 = 0.5$ 直接使用l1loss也同理。可见不考虑目标box的大小，直接回归相对坐标是不合理的。

针对这个问题，也有一些可行的解决方案。一种比较容易想到的方法，是对loss进行规范化：

Fig. 6. 根据尺寸对box的回归损失进行规范化

一种更加通用的方法是，修改regression target: 参考RCNN中的设置：（P是指proposed region。tw和th加了log，是为了避免w,h预测误差较大时，对loss起主导作用。如果中心坐标回归不准，宽高回归的再准也没用）。不过这个不适用于上面的实验，因为没有任何候选区的概念...

Fig. 7. 修改regression target，不直接回归坐标点

2.3 总结

本实验旨在了解Localization模型的性能。设定的任务场景非常简单，即检测图像中的单个手部，实验采用简单的resnet18模型作为骨干网络，将特征图回归到4维的向量，从而预测手部的位置。实验结果表明，该模型大体可以定位出手部的位置，但是由于loss函数和回归target的的简单设定，模型无法被迫使去根据不同大小目标之间的差异进行不同的惩罚，导致模型收敛的不好。此外，单个FC层作为模型的输出也降低了灵活性。
鉴于这些已经观察到的不足，我没有深入去改进localization实验结果。如果有感兴趣的同学，可以在上面提供的代码基础上进行简单的改进，然后分享下不同改进因素对模型的影响~这里我就直接跳到YOLO算法的介绍了！

三、YOLOv1

3.1 相关资源分享

关于YOLO1的分析，网上优质的资源很多，比如这篇知乎专栏文章，还有deepsystems.io的PPT。这里我就不详细介绍了，只是做一个简单的梳理。

3.2 概念梳理

对YOLO的理解其实主要是要把概念理清楚。具体来说不外乎下面几个概念：

输出维度 $7*7*30$ ；
区分grid cell, box以及feature space与image space（对于准备groudtruth，即回归目标很重要）
"responsble", "exists"与"specialization"
两个loss权重 $λ_{noobj}$ , $λ_{coord}$ ，三个loss成分（坐标、置信度、cell类别）

3.2.1 输出维度的含义

在第二部分中我们了解了最简单的回归检测模型——定位器。其一个特点是使用一个FC层输出所有可能box的信息。而YOLO则是将原图分为7 x 7个grid cells，并将每个grid cell回归至 $(4+1)*2 + 20 = 30$ 维的向量。其中 2 代表每个grid cell上预测两个box；(4+1)代表四个bouding box信息加一个置信度信息:

$confidence=Pr(Object) * IOU_{pred}^{truth}$

这个置信度信息同时编码了当前cell有目标的概率以及两个输出box和该目标的IOU。~~最后20个维度代表20个类别的one-hot向量。~~ 最后20维代表的不是20个类别的one-hot probability，而是conditional probability $Pr(Class_i|Object)$ ，即假如这个cell中存在object，那么该object是每个类别的概率。论文中Fig. 2的下图也正是这个概率，比如橙色的格子是代表，如果该cell有目标，则该cell的目标是car。

Fig. 8. conditional probability map

上述的一些细节见下图：

Fig. 9. YOLO Inference与输出Tensor解释

问题：两个FC的作用是什么？这里最后一个卷积层输出feature map可否直接通过一个1x1x30的Conv降维到7x7x30从而避免使用这两个FC？

Fig. 10. YOLO网络输出——7x7x30特征图

3.2.2 区分grid cells与boxes pridictors，feature space与image space

YOLO论文中很多地方都出现了这样的字眼: "exists", "fall into"，这些都是在强调，目标物体的中心落在某个cell中。即只有目标物体的中心所在的那个cell才认为是包含物体的，比如YOLO论文中那只狗，狗头等部位也占据了一些grid cell，但是这些cell并不认为包含了目标，这些cell上的box在设置regression targets时与那些空白的背景cell中的box并无二致。

"If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object";
"If no object exists in that cell, the confidence scores should be zero."

另一个需要仔细推敲的字眼是"responsible for"。YOLO虽然在每个grid上设置两个box，但是在训练时只让其中一个专门负责预测目标，即先比较输出的两个预测bounding box和groundtruth的IOU，IOU较大的那个box作为负责的box。论文中给出的解释是说，这样促使了两个bounding box之间的"specialization"，从而每个box在预测特定尺寸、宽高比或者类别时效果更好，进而提高了整体的recall。

Fig. 11. 论文中对于只选一个predictor为目标负责的解释

我其实完全没有理解这个说法，希望能得到更具体的解释。

3.2.3 feature space 与image space

这两个概念在yolo1中体现的没那么明显，在yolo2中涉及到anchor和一些相关的parameterization时会有非常重要的意义，到下一篇博客时我再结合代码详细梳理一下。当前我们只需要知道一个地方，就是Fig. 9.中，x/y和w/h的设置，不是用绝对的坐标值和宽高：x,y为目标中心点在该grid cell中的相对位置；w,h为groundtruth box相对于整个图像的比例。

3.2.4 两个loss权重和三个成分

上面分享的链接中已经对这部分做了详细的描述。这里我简单梳理下：

首先是三个loss成分：coordinate error，confidence error和class probability error。

① 每个grid cell只预测一个类别，因此class probability error和box无关，只对有目标的cell计算就行；
原文说的是：Note that the loss function only penalizes classification error if an object is present in that grid cell (hence the conditional class probability discussed earlier).

② coordinate error: 在包含目标的cell中，只惩罚IOU最大的那个box predictor。也就是说如果图中有三个目标，那么只有三个box predictor参与这部分计算。其他 $7*7*2 - 3 = 95$ 个box predictor都不对其回归的坐标位置进行adjust。

③ confidence error: 计算所有98个box的confidence error。

两个权重：

首先我们看看为啥要设置这两个权重。如果我们也像第二部分的Localizator那样直接对预测tensor和label tensor求sum-squared error，有两个明显的问题：一，最简单的，对于每个cell输出30维度，class probability相关的就有20维，box相关的只有8维。如果将每个维度一视同仁求l2 loss，类别损失在整体损失函数中显然占据上风，进而在反向传播中占据主导地位；二是98个box都参与confidence error的计算，但是只有三个是正样本，其他95个都是负样本。如果在计算这部分loss时对所有样本一视同仁，和上面类似，负样本的confidence loss会占据绝对的主导地位，从而导致正样本在反向传播时几乎没有梯度。

所以两个权重的作用就很清晰了： $λ_{coord}$ 是为了平衡坐标损失和置信度损失之间的不均衡；而 $λ_{noobj}$ 则是为了平衡正负box样本在求置信度损失时的不均衡。

上述概念基本上涵盖了yolo损失函数的主要部分。见下图：

Fig. 12. YOLO loss

还有个值得注意的细节，就是对于不同尺寸box样本的坐标偏移量给于不同的惩罚，也就是第二部分Localization实验中我们遇到的一个问题：相同的绝对偏移量，小样本的相对偏移要比大样本严重得多。YOLO v1中给出的解决办法是使用平方根，这确实是一个蛮简单精巧的设置，下图直观地展示了平方根的效果：（不过好像事实上这个设置太过简单，不能根本上解决问题）

Fig. 13. 平方根的妙用

3.3 YOLO evaluation

测试的过程上面的PPT写的非常清晰，需要注意的是，首先要将每个box的Confidence和class probability相乘，得到每个box的confidence score，其维度为 $20 * 1 = 20$

Fig. 14. 计算每个box的confidence score

Fig. 15. 可视化confidence score

接下来对每个category类别逐一进行NMS，在最终的box中找到非零score的box，绘制到图中，其最大score对应下标即为类别。

3.4 YOLO training

YOLO训练过程最大的挑战在于，如何将groundtruth box（即原始label）转换至和我们所要的网络输出一致的，7730的形式，或者说如何把原始label assign到各个grid cell中去。这一部分内容相对比较琐碎，我把它放在下一篇博客中，和anchor的改进结合在一起记录。

不过作者这个presentation中的讲解关于训练的部分讲的蛮清楚，有必要记录下，短短几句话就涵盖了yolo 回归目标（target）以及loss的设置：

作者首先提到，找到目标物中心所在的cells，然后定好class labels，比如下图中狗对应1，其他19个类别对应0。然后作者说要对每个有目标的cell中的box进行adjust: 对于IOU大的box predictor，"increase its confidence and adjust its coordinates"；对于该grid cell预测的其他boxes，"decrease their confidence since they don't overlap the object."

我觉得理解这里的adjust非常有意义。比如“对于IOU大的box，增大其置信度”，意味着①loss要对其进行约束②其置信度标签应该是1；而“对于IOU小的其他boxes（不一定一个cell只给出两个box predictors），减小其置信度”同样意味着：①loss要对这些boxes也进行约束②其置信度标签应该是0。

Fig. 16. 图中实线为gt，大虚线为负责的box，小虚线为同一个cell预测的其他box

四、问题整理

对于Fig. 16中那个小虚线box所代表的一类box来说，它们的坐标并没有收到loss的约束进而不断地"adjust"，那么是否可以认为，对于这张图而言，模型完全依赖三个负责的box给出准确的预测结果，其他95个box的confidence受到抑制，因此它们的坐标完全是干扰，没有任何价值？
两个FC层的作用？可否换成1x1 Conv减小参数？
每个grid cell只使用一个box作为负责的box，论文中说这样“促使了两个bounding box之间的"specialization"，从而每个box在预测特定尺寸、宽高比或者类别时效果更好，进而提高了整体的recall”，应该如何理解？
有篇关于YOLO的文章基本读不懂..也记录在这里：
https://christopher5106.github.io/object/detectors/2017/08/10/bounding-box-object-detectors-understanding-yolo.html

五、参考：

定位器代码: https://nbviewer.jupyter.org/github/cy810557/chiyuan/blob/master/Projects/HobotProjects/Hand_Detector/Experiment_Localizator/%E7%9B%AE%E6%A0%87%E5%AE%9A%E4%BD%8D%E5%99%A8.ipynb
知乎文章: https://zhuanlan.zhihu.com/p/24916786
PPT: https://docs.google.com/presentation/d/1aeRvtKG21KHdD5lg6Hgyhx5rPq_ZOsGjG5rJ1HP7BbA/pub?start=false&loop=false&delayms=3000&slide=id.p
作者CVPR演讲视频：https://www.youtube.com/watch?v=NM6lrxy0bxs&feature=youtu.be
B站讲解视频：https://www.bilibili.com/video/av41036172from=search&seid=3486837237199793282

目标检测系列——从定位器到YOLO
一、概述最近有点时间，打算把前一阵子学习的目标检测相关的内容梳理一下。这个系列涉及到一些原理的回顾，简单的代...
目标检测YOLO系列——YOLO v3
阅读本文之前，请先阅读前两代YOLO文章目标检测YOLO系列——YOLO v1目标检测YOLO系列——YOLO v...
目标检测之YOLO-You Only Look Once（一）
提到计算机视觉，自然会提到目标检测（object detection），而谈到目标检测,YOLO系列算法算是目标检...
吴恩达深度学习：目标检测之YOLO算法
在学习到目标检测这一课时，在完成课后编程练习，用YOLO实现目标检测时，从Jupyter Notebook上下载y...
Yolo-Darknet的安装和使用
1. Yolo-Darknet介绍 YOLO是基于深度学习方法的端到端实时目标检测系统，目前有三个版本，Yolo-...
目标检测 YOLO系列——YOLO v1
YOLO v1:You Only Look Once: Unified, Real-Time Object Det...
目标检测YOLO系列——YOLO v2
在yolo v1的基础上作者提出了一种联合训练的方法将目标检测数据集与分类数据集结合，使得YOLOv2网络能够识别...
YOLO_Online 将深度学习最火的目标检测做成在线服务实战
YOLO_Online 将深度学习最火的目标检测做成在线服务第一次接触 YOLO 这个目标检测项目的时候，我就在...
YOLO算法
YOLO算法是一种目标检测算法。
SSD: 快速而准确的端到端目标检测模型
介绍同Yolo一样，SSD也是一种端到端的单阶段目标检测网络。它将图片之上的检测目标视为是许多个default ...