GHM总结

作者: csuhan | 来源:发表于2019-09-26 15:27 被阅读0次

    论文名称:Gradient Harmonized Single-stage Detector
    论文地址:传送门

    Introduction

    single-stage detector虽然面临着训练时的不协调,如正样本和负样本、易分类目标和难分类目标之间质量的巨大差异,但其不失为一种优雅且有效的方法。
    在本文中,作者将这种不协调性归结到梯度问题,并提出了一种梯度协调机制(Gradient Harmonizing Mechanism,GHM)来解决这种不协调。GHM可以与分类和回归Loss function相结合,如Cross Entropy、Smooth L1 Loss。

    我们知道在one-stage方法的训练过程中,最大的挑战就是正样本和负样本、易分类目标和难分类目标之间的不平衡性,大量易分类的背景样本使得模型并不能学习到目标的真正特征。如果一个目标很容易区分,那么模型并不能从中受益。

    梯度范数等效于梯度的大小,范数越大,则梯度就较大。作者通过对梯度范数的分析,发现梯度范数较小时聚集了大量的样本,而这些样本即代表易分类的样本,它们对模型的训练并没有太大的帮助;同时我们还发现有许多梯度范数及其大的样本,他们对目标的分类也没有太大的作用。

    因此如果能够对梯度范数十分小的样本和十分大的样本(异常值,outliers)down-weight,那么每个样本的贡献都是均衡的。


    Gradient Harmonizing Mechanism

    对于二分类问题的Loss函数:Cross Entropy
    L_{CE}(p,p^*)=\begin{cases} -log(p) && if \quad p^*=1 \\ -log(1-p) && if \quad p^*=0 \end{cases}

    假设p=sigmoid(x),那么:
    \frac{\partial L_{CE}}{\partial x}=\begin{cases} p-1 && if \quad p^*=1 \\ p && if \quad p^*=0 \end{cases} =p-p^*

    接着我们定义g
    g = |p-p^*|=\begin{cases} 1-p && if \quad p^*=1 \\ p && if \quad p^*=0 \end{cases}

    Gradient Dentisy

    GD(g)=\frac{1}{l_{\epsilon}(g)}=\sum_{k=1}^N\delta_{\epsilon}(g_k,g)
    \delta(x,y)=\begin{cases} 1 && if \quad y-\frac{\epsilon}{2} <= x < y+ \frac{\epsilon}{2} \\ 0 && otherwise \end{cases}
    l_{\epsilon}(g)=min(g+\frac{\epsilon}{2},1)-max(g-\frac{\epsilon}{2},0)
    接着定义梯度密度协调参数\beta_i=\frac{N}{GD(g_i)},其中N是样本总数。

    GHM-C Loss

    将GHM加入到分类Loss当中:
    L_{GHM-C}=\frac{1}{N} \sum_{i=1}^{N}\beta_i L_{CE}(p_i,p^*) \\= \sum_{i=1}^N \frac{L_{CE}(p_i,p^*)}{GD(g_i)}

    GHM-C Loss

    GHM-R Loss

    在回归当中使用的L1 Loss:
    L_{reg}=\sum_{i \in \{x,y,w,h\}}SL_1(t_i-t_i^*)

    Experiments

    相关文章

      网友评论

          本文标题:GHM总结

          本文链接:https://www.haomeiwen.com/subject/vivguctx.html