这是进行任意角度目标检测论文,把物体的坐标处理为(x,y,w,h,θ),作者通过在文中添加两种注意力机制通道注意力和像素级别的注意力机制进行特征的过滤。
- 算法概览
文把创新部分分为三个部分:
- IF-Net:把两个不同层的feature map进行融合
- MDA-Net: 使用通道注意力和像素级别的注意力机制
- Rotaion Branch: 在roi之后进行任意角的坐标预测(x,y,w,h,θ).

- MDA-Net讨论
文中的通道注意力机制就是SEnet的结构,但是这里的像素级别的注意力机制是通过训练一条像素二值图支路。过对目标区域进行二值化,得到含有目标区域的二值化图,通过构建二分类损失,使模型学到像素级别的注意力机制。

- loss
构建多任务,三个任务:分类,坐标回归,注意力训练

参考:
paper
tensorflow复现
网友评论