美文网首页
标签平滑Label Smoothing

标签平滑Label Smoothing

作者: LIKESUNE | 来源:发表于2020-12-30 23:26 被阅读0次

    Lable Smoothing
    是分类问题中错误标注的一种解决方法。
    对于分类问题,特别是多分类问题,常常把向量转换成one-hot-vector(独热向量)
    对于损失函数,我们需要用预测概率去拟合真实概率,而拟合one-hot的真实概率函数会带来两个问题:

    1)无法保证模型的泛化能力,容易造成过拟合;
    2) 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大,而由梯度有界可知,这种情况很难适应。会造成模型过于相信预测的类别。

    交叉熵损失函数在多分类任务中存在的问题

    多分类任务中,神经网络会输出一个当前数据对应于各个类别的置信度分数,将这些分数通过softmax进行归一化处理,最终会得到当前数据属于每个类别的概率。


    然后计算交叉熵损失函数:



    训练神经网络时,最小化预测概率和标签真实概率之间的交叉熵,从而得到最优的预测概率分布。最优的预测概率分布是:



    神经网络会促使自身往正确标签和错误标签差值最大的方向学习,在训练数据较少,不足以表征所有的样本特征的情况下,会导致网络过拟合。
    换句话说:如果分类准确,交叉熵损失函数的结果是0(即上式中p和y一致的情况),否则交叉熵为无穷大。也就是说交叉熵对分类正确给的是最大激励。再换句话说,对于标注数据来说,这个时候我们认为其标注结果是准确的(不然这个结果就没意义了)。但实际上,有一些标注数据并不一定是准确的。那么这时候,使用交叉熵损失函数作为目标函数并不一定是最优的。

    label smoothing(标签平滑)

    label smoothing可以解决上述问题,这是一种正则化策略,主要是通过soft one-hot来加入噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。


    增加label smoothing后真实的概率分布有如下改变:



    交叉熵损失函数的改变如下:



    最优预测概率分布如下:

    这里的α是任意实数,最终模型通过抑制正负样本输出差值,使得网络有更强的泛化能力。也就是说,我们对分类的准确性做了一点惩罚,不那么相信每一次的ground truth。

    参考链接:https://zhuanlan.zhihu.com/p/116466239
    https://blog.csdn.net/qq_43211132/article/details/100510113

    相关文章

      网友评论

          本文标题:标签平滑Label Smoothing

          本文链接:https://www.haomeiwen.com/subject/iqikoktx.html