titile | YOLOv3: An Incremental Improvement |
---|---|
url | https://pjreddie.com/media/files/papers/YOLOv3.pdf |
动机 | YOLO的更改。比YOLOv2稍大,但更准确。仍很快。 |
内容 | YOLO V3:320×320 YOLOv3运行22.2ms,28.2 mAP,精度同SSD,速度快三倍。Titan X,AP50=57.9,51 ms,RetinaNet AP50=57.5 198 ms,性能相似速度快3.8倍![]() 同YOLO9000:anchor dimension clusters ![]() ![]() ![]() 每个box对应multilabel classification。因此不同softmax,采用independent logistic classifiers,训练中,用 binary cross-entropy loss预测类别。 Predictions Across Scales: YOLOv3预测3种尺度的anchor,第一个接在卷积层后。COCO中,预测3个框,4个边界框偏移量,1个objectness预测和80个类别预测,N×N×[3 *(4 + 1 + 80)]。(坐标回归不区分类别,num_classes不包含背景+confidence+4个坐标) 之前的两层中取feature map,上采样2倍。从网络低层取feature map,用element-wise addition将其与上采样特征合并。能从低层特征中获得细粒度信息,高层特征获得语义信息。再加几个卷积层处理组合特征图,最终预测,尺寸第一个yolo层的两倍。第三个yolo层同第二个。 k-means聚类确定anchor。9个聚类和3个尺度,然后在整个尺度上均匀分割聚类。COCO数据集9个聚类是:(10×13);(16×30);(33×23);(30×61);(62×45); (59×119); (116×90); (156×198); (373×326)。 Feature Extractor: Darknet-53:融合Darknet-19和残差网络,由连续的3×3和1×1卷积层组合,添加shortcut connection,网络更大,53个卷积层。 ![]() ![]() Darknet-53实现e highest measured floating point operations per second。网络结构更好利用GPU,预测效率更高,速度更快。原因:ResNets层数太多,效率不高。 Training:输入完整图像,no hard negative mining or any of that stuff。实验中多尺寸训练、数据增强和batch normalization等均符合标准。模型训练和测试框架是Darknet。 How We Do: COCO数据集mAP,与SSD相当,速度提高3倍。比RetinaNet差一点。 IOU=.5,YOLOv3非常强大。几乎与RetinaNet相当,远高于SSD variants。证明它YOLOv3 is a very strong detector that excels at producing decent boxes for objects,随IOU阈值增加,YOLOv3性能下降,预测box不能完美对齐。 多尺寸预测,YOLOv3将具备更高的APS性能。但中等尺寸或大尺寸物体表现相对较差,仍需完善。 AP50绘制精度和速度,YOLOv3与其他检测系统相比具有显着优势。better and faster。 ![]() ![]() (1)Anchor box x,y offset predictions:常规的Anchor box预测方法,如用linear activation将x,y offse预测为box宽度或高度的倍数。降低模型稳定性,效果不佳。 (2)Linear x,y predictions instead of logistic:linear activation预测x,y offeset ,不用 logistic activation。mAP下降了几个点。 (3)Focal loss:使用focal loss,mAp降低2个点。YOLOv3对focal loss解决的问题可能已经很强大,it has separate objectness predictions and conditional class predictions。 most examples there is no loss from the class prediction。 (4)Dual IOU thresholds and truth assignment :Faster R-CNN在训练期间使用两个IOU阈值。如预测box与ground truth重叠>0.7,正样本,如0.3-0.7之间,忽略,如小于0.3,负样本。类似策略没有效果。 |
思考 | mAP没有明显提升,特别是IOU > 0.5 |
网友评论