论文:Enriched Feature Guided Refinement Network for Object Detection
l 问题引入
今天依旧是基于SSD的魔改,基于经典工作的修改是真滴多。针对原始SSD的两个问题不能处理尺度变化很大和前景背景类不平衡。
作者归咎SSD不能处理尺度变化很大的原因可能是每一个预测层固定的上下文语义信息,许多方法是通过特征金字塔的方式提供高层语义信息给较浅层的特征图,即加一个TOP-DOWN结构,简单的添加的这样一个结构确实有一定效果,但是还是有可改善的空间。
正负样例类别不平衡的问题解决的办法例如focal loss,OHEM,就是训练难样本,降低简单样本的loss权重。
作者提出了一个EFGR(Enriched Feature Guided Refinement)结构,能够同时解决这两个问题。
l 方法
整体结构如下:
图片1.png结构看起来的简单,不考虑细节,跟BOTTLE-UP加TOP-DOWN结构是一致的,只是top-down这里也改成一个BOTTLE-UP,将图片下采样然后经过MSCF模块得到特征图与SSD得到的特征图结合再进行目标检测。可以看到就是两大结构MSCF和CRS,下面好好看看这两个模块:
MSCF(Multi-scale Contextual Features Module):多尺度上下文特征模块,结构如下:
图片2.png
无非就是一些卷积操作,里面有趣的就是splitting, transformation再aggregation的过程,灵感来源于ResNeXT,这里对于不同分支使用不同dilatation率的dilated conv组合得到多尺度上下文信息的特征,接下来它就是作者说的cascaded refinement scheme的输入,也就是之前我认为的再一个bottle-up的起始。
CRS(Cascaded Refinement Scheme):级联的精细化方案。
OM(Objectness Module):这里可以看作是two-stage方法中的RPN中的分类和边框货柜,这里只会是判断是否是物体的二分类。这里使用的是MSCF中得到的多尺度上下文特征和SSD的特征逐元素相乘得到的enriched features。下图是三种特征:SSD原始特征、MSCF、两者组合的enriched features的可视化。可以看到效果是很明显的,有用的特征更加集中在目标物体上。
图片3.pngFGRM(Feature Guided Refinement Module):特征指导的精细化模块
图片4.png这里不仅refine anchor同时也refine特征,这里还有些没看懂。明天还需要再补充一下。
l 实验
图片5.png
网友评论