YOLOv3

作者: 小松qxs | 来源:发表于2018-12-18 21:57 被阅读0次
titile YOLOv3: An Incremental Improvement
url https://pjreddie.com/media/files/papers/YOLOv3.pdf
动机 YOLO的更改。比YOLOv2稍大,但更准确。仍很快。
内容 YOLO V3:320×320 YOLOv3运行22.2ms,28.2 mAP,精度同SSD,速度快三倍。Titan X,AP50=57.9,51 ms,RetinaNet AP50=57.5 198 ms,性能相似速度快3.8倍
Bounding Box Prediction:
同YOLO9000:anchor dimension clusters box坐标训练使用平方误差损失和。 objectness score:使用 logistic regression。 如果anchor与ground truth重叠大于阈值(阈值0.5),则为1。如果该anchor不是最好的,但与ground truth重叠达到阈值,忽视该anchor。每个ground truth对应一个anchor。如果anchor没有对应的grounding box, it incurs no loss for coordinate or class predictions, only objectness。 Class Prediction:
每个box对应multilabel classification。因此不同softmax,采用independent logistic classifiers,训练中,用 binary cross-entropy loss预测类别。

Predictions Across Scales:
YOLOv3预测3种尺度的anchor,第一个接在卷积层后。COCO中,预测3个框,4个边界框偏移量,1个objectness预测和80个类别预测,N×N×[3 *(4 + 1 + 80)]。(坐标回归不区分类别,num_classes不包含背景+confidence+4个坐标)
之前的两层中取feature map,上采样2倍。从网络低层取feature map,用element-wise addition将其与上采样特征合并。能从低层特征中获得细粒度信息,高层特征获得语义信息。再加几个卷积层处理组合特征图,最终预测,尺寸第一个yolo层的两倍。第三个yolo层同第二个。
k-means聚类确定anchor。9个聚类和3个尺度,然后在整个尺度上均匀分割聚类。COCO数据集9个聚类是:(10×13);(16×30);(33×23);(30×61);(62×45); (59×119); (116×90); (156×198); (373×326)。

Feature Extractor:
Darknet-53:融合Darknet-19和残差网络,由连续的3×3和1×1卷积层组合,添加shortcut connection,网络更大,53个卷积层。 Darknet-53 much more powerful than Darknet19 , more efficient than ResNet-101 or ResNet-152。 以上实验训练:输入256×256,单精度测试。Titan X。Darknet-53在精度媲美最先进的网络,浮点运算更少,速度更快。Darknet-53速度是ResNet-101的1.5倍;和ResNet-152相似,速度是ResNet-152一半。
Darknet-53实现e highest measured floating point operations per second。网络结构更好利用GPU,预测效率更高,速度更快。原因:ResNets层数太多,效率不高。

Training:输入完整图像,no hard negative mining or any of that stuff。实验中多尺寸训练、数据增强和batch normalization等均符合标准。模型训练和测试框架是Darknet。

How We Do:
COCO数据集mAP,与SSD相当,速度提高3倍。比RetinaNet差一点。
IOU=.5,YOLOv3非常强大。几乎与RetinaNet相当,远高于SSD variants。证明它YOLOv3 is a very strong detector that excels at producing decent boxes for objects,随IOU阈值增加,YOLOv3性能下降,预测box不能完美对齐。
多尺寸预测,YOLOv3将具备更高的APS性能。但中等尺寸或大尺寸物体表现相对较差,仍需完善。
AP50绘制精度和速度,YOLOv3与其他检测系统相比具有显着优势。better and faster。 Things We Tried That Didn’t Work:
(1)Anchor box x,y offset predictions:常规的Anchor box预测方法,如用linear activation将x,y offse预测为box宽度或高度的倍数。降低模型稳定性,效果不佳。
(2)Linear x,y predictions instead of logistic:linear activation预测x,y offeset ,不用 logistic activation。mAP下降了几个点。
(3)Focal loss:使用focal loss,mAp降低2个点。YOLOv3对focal loss解决的问题可能已经很强大,it has separate objectness predictions and conditional class predictions。 most examples there is no loss from the class prediction。
(4)Dual IOU thresholds and truth assignment :Faster R-CNN在训练期间使用两个IOU阈值。如预测box与ground truth重叠>0.7,正样本,如0.3-0.7之间,忽略,如小于0.3,负样本。类似策略没有效果。
思考 mAP没有明显提升,特别是IOU > 0.5

相关文章

网友评论

      本文标题:YOLOv3

      本文链接:https://www.haomeiwen.com/subject/ixmkkqtx.html