1、什么是边框回归
目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。由于一幅图像上的框可以由中心点坐标(Xc, Yc)和宽W高H唯一确定,所以这种逼近的过程可以建模为回归问题。
2、为什么要做边框回归
通过对候选框做边框回归,可以使最终检测到的目标定位更加接近真实值,提高定位准确率。
3、怎么做边框回归
(1)确定学习目标
确定学习目标如上图所示,候选框 P 没有很好地定位到目标,与标注框 G 存在位置和大小比例的差异。为了能使 P 逼近 G,需要寻找一种变换方法,直观的方式是对 P 先平移,再缩放。假设存在变换 t*(.),使得
其中,坐标乘以宽高是为了以平移的比例来计算,而宽高使用指数形式是为了保证缩放比例为正数。那么可以求出目标变换t*(.)为:
(2)确定损失函数
如下图所示,边框回归的输入是CNN在候选框所提取的feature map,当候选框与标注框的IoU较大时,从候选框到预测框的变换 d*(.) 可以认为是一种近似的线性变换,所以可以建立线性回归模型。
变换计算过程4、代码示例
这里以 https://github.com/tensorpack/tensorpack/tree/master/examples/FasterRCNN 的实现为例描述实现的过程。
与边框回归相关的代码集中在 modeling/generalized_rcnn.py和modeling/model_box.py两个文件中,在generalized_rcnn.py中
代码中有两个转换函数anchors.decode_logits()和anchors.encoded_gt_boxes(),在modeling/model_box.py文件中,实际调用的是以下两个函数:
7.png
网友评论