代码地址
抽时间看完了达摩院的这篇论文,论文出发点是解决目标检测中的目标尺寸的范围太广,现有的检测模型对小,中,大目标的效果不一样,论文在单步条件下SOTA。
大家无非用的方法有两种:
- 图片金子塔
- 特征金子塔
表现的模型如下:
![](https://img.haomeiwen.com/i12486617/158a658a01f4220e.png)
a,b,c是别人的,我们提出了d。
a,b,c这些模型有两个问题:
1.特征表示不足够
2.进行预测的特征只来自一个层
模型
我们为了解决上面这俩个问题, 提出下面的模型:
![](https://img.haomeiwen.com/i12486617/af2cb823c853b375.png)
FFMv1:把所有来自backbone进行融合丰富
TUM:产生一系列多尺度的特征,使用小型的U结构,code和decode layer。
FFMv2:对特征进行抽取
SFAM:对特征进行concation和自适应注意力机制(SEnet)
实验结果:
主要对比vgg16和resnet101,快,准
![](https://img.haomeiwen.com/i12486617/bce31def274a405d.png)
消融实验
![](https://img.haomeiwen.com/i12486617/4ae0f3f4a35c9575.png)
每个策略都很好,特别是decode(SFAM),resnet101也涨的比较高
不能无限加TUM
TUM 和 通道可以相互补充。
![](https://img.haomeiwen.com/i12486617/5e10b7715405c5a1.png)
网友评论