介绍
原文地址: https://blog.csdn.net/zijin0802034/article/details/77685438/
因为做目标检测和人脸识别时,当前比较流行的是anchor-based方案,会涉及到边框回归的问题,在此记录为了从原理入手,加深自己的理解。首先提出如下几个问题:
1. 为什么要做边框回归?
2. 什么是边框回归?
3. 边框回归怎么做?
4. 边框回归的宽高为什么要设计成这个样子?
5. 为什么边框回归只能微调,在离ground truth近的时候才能生效?
1. 为什么要做边框回归?
Fig 1上图中绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调这个窗口的。
2. 什么是边框回归?
对于窗口一般使用四维向量来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口。
Fig 2边框回归的目的既是:给定寻找一种映射, 使得并且
3. 边框回归怎么做?
那么,经过何种变换才能从Fig 2中的窗口变成窗口呢?比较简单的思路是:平移 + 尺度缩放
3.1 先做平移 ,其中, ,这是论文中的:
(1)
(2)
3.2 再做尺度缩放,其中,,对应论文中的:
(3)
(4)
观察(1)-(4)我们发现, 边框回归学习就是,,,这四个变换。下一步就是设计算法那得到这四个映射。线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即。 那么 Bounding-box 中我们的输入以及输出分别是什么呢?
Input
Region Proposal → ,这是什么?输入就是这四个数值吗?其实真正的输入时这个窗口对应的CNN特征,也就是R-CNN中Pool5 feature(特征向量)。(注:训练阶段输入还包括Ground Truth,也就是下边提到的。
Output
需要进行的平移变换和尺度缩放,,, 或者说是 ,。 我们的最终输出不应该是 Ground Truth 吗? 是的, 但是有了这四个变换我们就可以直接得到 Ground Truth, 这里还有个问题, 根据(1)~(4)我们可以知道, P 经过,,,得到的并不是真实值 , 而是预测值。 的确, 这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量和尺度缩放。这也就是 R-CNN 中的(6)~(9):
(5)
(6)
(7)
(8)
那么目标函数可以表示为,是输入Proposal的特征向量,是要学习的参数(*表示x,y,w,h,也就是每一个变换对应一个目标函数),是得到的一个预测值,我要让预测值与真实值差距最小,得到的损失函数为:
函数优化目标为:
利用梯度下降法或者最小二乘法就可以得到
为什么宽高尺度设计成这种形式?
这里重点需要解释下为什么设计的,为什么要除以宽高,为什么,会有形式!!
首先CNN具有尺度不变性,以下图为例:
Fig 3
x,y 坐标除以宽高
上图的两个人具有不同的尺度,因为他都是人,我们得到的特征相同。假设我们得到的特征为ϕ1,ϕ2,那么一个完好的特征应该具备ϕ1=ϕ。ok,如果我们直接学习坐标差值,以x坐标为例,xi,pi分别代表第i个框的x坐标,学习到的映射为f,f(ϕ1)=x1−p1,同理f(ϕ2)=x2−p2。从上图显而易见,x1−p1≠x2−p1。也就是说同一个x对应多个y,这明显不满足函数的定义。边框回归学习的是回归函数,然而你的目标却不满足函数定义,当然学习不到什么。
宽高坐标Log形式
我们想要得到一个放缩的尺度,也就是说这里限制尺度必须大于0。我们学习的tw,th 怎么保证满足大于0呢?直观的想法就是EXP函数,如公式(3), (4)所示,那么反过来推导就是Log函数的来源了。
网友评论