一、二分类focal loss

1、一句话概括：

focal loss，这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

2、出发点：

希望one-stage detector可以达到two-stage detector的准确率，同时不影响原有的速度

在object detection领域，一张图像可能生成成千上万的candidate locations，但是其中只有很少一部分是包含object的，这就带来了类别不均衡。

·类别不均衡带来的问题：

负样本数量太大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化方向并不是我们所希望的那样。

3、目的：

通过减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本

4、推导过程：

（1）、原始二分类交叉熵：

image

（2）、平衡交叉熵

CE在某种程度上不能处理正/负例子的重要性，这里引入了一个权重因子“α”，其范围为[0,1]，正类为α，负类为“1 -α”，这两个定义合并在一个名为“α”的名称下，可以定义为

image

这个损失函数稍微解决了类不平衡的问题，但是仍然无法区分简单和困难的例子。为了解决这个问题，我们定义了焦损失。

image

（3）、focal loss

image

(1-pt)^γ为调变因子，这里γ≥0，称为聚焦参数。

从上述定义中可以提取出Focal Loss的两个性质：

1、当样本分类错误时，pt趋于0，调变因子趋于1，使得损失函数几乎不受影响。另一方面，如果示例被正确分类，pt将趋于1，调变因子将趋向于0，使得损耗非常接近于0，从而降低了该特定示例的权重。

2、聚焦参数（γ）平滑地调整易于分类的示例向下加权的速率。

FL(Focal Loss)和CE（交叉熵损失）的比较

当γ=2时，与概率为0.9的示例相比，概率为0.9的示例的损失比CE和0.968低100倍，损失将降低1000倍。

下面的描述了不同γ值下的FL。当γ=0时，FL等于CE损耗。这里我们可以看到，对于γ=0（CE损失），即使是容易分类的例子也会产生非平凡的损失震级。这些求和的损失可以压倒稀有类（很难分类的类）。

image

二、多分类focal loss

image

#来源：https://github.com/HeyLynne/FocalLoss_for_multiclass
class FocalLoss(nn.Module):
    def __init__(self, gamma = 2, alpha = 1, size_average = True):
        super(FocalLoss, self).__init__()
        self.gamma = gamma
        self.alpha = alpha
        self.size_average = size_average
        self.elipson = 0.000001

    def forward(self, logits, labels):
        """
        cal culates loss
        logits: batch_size * labels_length * seq_length
        labels: batch_size * seq_length
        """
        if labels.dim() > 2:
            labels = labels.contiguous().view(labels.size(0), labels.size(1), -1)
            labels = labels.transpose(1, 2)
            labels = labels.contiguous().view(-1, labels.size(2)).squeeze()
        if logits.dim() > 3:
            logits = logits.contiguous().view(logits.size(0), logits.size(1), logits.size(2), -1)
            logits = logits.transpose(2, 3)
            logits = logits.contiguous().view(-1, logits.size(1), logits.size(3)).squeeze()
        assert(logits.size(0) == labels.size(0))
        assert(logits.size(2) == labels.size(1))
        batch_size = logits.size(0)
        labels_length = logits.size(1)
        seq_length = logits.size(2)

        # transpose labels into labels onehot
        new_label = labels.unsqueeze(1)
        label_onehot = torch.zeros([batch_size, labels_length, seq_length]).scatter_(1, new_label, 1)

        # calculate log
        log_p = F.log_softmax(logits)
        pt = label_onehot * log_p
        sub_pt = 1 - pt
        fl = -self.alpha * (sub_pt)**self.gamma * log_p
        if self.size_average:
            return fl.mean()
        else:
            return fl.sum()