YOLOv3

作者: 小松qxs | 来源:发表于2018-12-18 21:57 被阅读0次

Yolov3-Windows 批量保存图像及运行与保存视频
Yolov3参数解释
简单实现YOLOv3 WebAPI
物体检测安全帽检测
Yolov3网络结构
一张图梳理YOLOv4论文
YOLOv3训练自己的数据
【AlexeyAB DarkNet框架解析】九，YOLOV3损失
YOLOv3: An Incremental Improveme
yolov3算法详解

titile	YOLOv3: An Incremental Improvement
url	https://pjreddie.com/media/files/papers/YOLOv3.pdf
动机	YOLO的更改。比YOLOv2稍大，但更准确。仍很快。
内容	YOLO V3：320×320 YOLOv3运行22.2ms，28.2 mAP，精度同SSD，速度快三倍。Titan X，AP50=57.9，51 ms，RetinaNet AP50=57.5 198 ms，性能相似速度快3.8倍 Bounding Box Prediction: 同YOLO9000：anchor dimension clusters box坐标训练使用平方误差损失和。 objectness score：使用 logistic regression。如果anchor与ground truth重叠大于阈值（阈值0.5），则为1。如果该anchor不是最好的，但与ground truth重叠达到阈值，忽视该anchor。每个ground truth对应一个anchor。如果anchor没有对应的grounding box， it incurs no loss for coordinate or class predictions, only objectness。 Class Prediction：每个box对应multilabel classification。因此不同softmax，采用independent logistic classifiers，训练中，用 binary cross-entropy loss预测类别。 Predictions Across Scales： YOLOv3预测3种尺度的anchor，第一个接在卷积层后。COCO中，预测3个框，4个边界框偏移量，1个objectness预测和80个类别预测，N×N×[3 （4 + 1 + 80）]。（坐标回归不区分类别，num_classes不包含背景+confidence+4个坐标）之前的两层中取feature map，上采样2倍。从网络低层取feature map，用element-wise addition将其与上采样特征合并。能从低层特征中获得细粒度信息，高层特征获得语义信息。再加几个卷积层处理组合特征图，最终预测，尺寸第一个yolo层的两倍。第三个yolo层同第二个。 k-means聚类确定anchor。9个聚类和3个尺度，然后在整个尺度上均匀分割聚类。COCO数据集9个聚类是：（10×13）;（16×30）;（33×23）;（30×61）;（62×45）; （59×119）; （116×90）; （156×198）; （373×326）。 Feature Extractor：* Darknet-53：融合Darknet-19和残差网络，由连续的3×3和1×1卷积层组合，添加shortcut connection，网络更大，53个卷积层。 Darknet-53 much more powerful than Darknet19 ， more efficient than ResNet-101 or ResNet-152。以上实验训练：输入256×256，单精度测试。Titan X。Darknet-53在精度媲美最先进的网络，浮点运算更少，速度更快。Darknet-53速度是ResNet-101的1.5倍；和ResNet-152相似，速度是ResNet-152一半。 Darknet-53实现e highest measured floating point operations per second。网络结构更好利用GPU，预测效率更高，速度更快。原因：ResNets层数太多，效率不高。 Training：输入完整图像，no hard negative mining or any of that stuff。实验中多尺寸训练、数据增强和batch normalization等均符合标准。模型训练和测试框架是Darknet。 How We Do： COCO数据集mAP，与SSD相当，速度提高3倍。比RetinaNet差一点。 IOU=.5，YOLOv3非常强大。几乎与RetinaNet相当，远高于SSD variants。证明它YOLOv3 is a very strong detector that excels at producing decent boxes for objects，随IOU阈值增加，YOLOv3性能下降，预测box不能完美对齐。多尺寸预测，YOLOv3将具备更高的AP_S性能。但中等尺寸或大尺寸物体表现相对较差，仍需完善。 AP50绘制精度和速度，YOLOv3与其他检测系统相比具有显着优势。better and faster。 Things We Tried That Didn’t Work： (1)Anchor box x，y offset predictions：常规的Anchor box预测方法，如用linear activation将x，y offse预测为box宽度或高度的倍数。降低模型稳定性，效果不佳。 (2)Linear x，y predictions instead of logistic：linear activation预测x，y offeset ，不用 logistic activation。mAP下降了几个点。 (3)Focal loss：使用focal loss，mAp降低2个点。YOLOv3对focal loss解决的问题可能已经很强大，it has separate objectness predictions and conditional class predictions。 most examples there is no loss from the class prediction。 (4)Dual IOU thresholds and truth assignment ：Faster R-CNN在训练期间使用两个IOU阈值。如预测box与ground truth重叠>0.7，正样本，如0.3-0.7之间，忽略，如小于0.3，负样本。类似策略没有效果。
思考	mAP没有明显提升，特别是IOU > 0.5