通俗理解label smoothing 标签平滑实例

作者: top_小酱油 | 来源:发表于2020-06-27 21:31 被阅读0次

通俗理解label smoothing 标签平滑实例
Label smoothing 标签平滑
标签平滑Label Smoothing
基于tensorflow的label smoothing实现
label smooth
标签平滑 Label Smoothing 详解及 pytorch
Pytorch: label smothing
标签平滑label smooth
利用纯CSS制作轮播图
Opencv-Python学习笔记八——图像平滑（滤波）smoo

问题背景

对于分类问题，尤其是多类别分类问题中，常常把类别向量做成one-hot vector(独热向量)。

简单地说，就是对于多分类向量，计算机中往往用[0, 1, 3]等此类离散的、随机的而非有序(连续)的向量表示，而one-hot vector 对应的向量便可表示为[0, 1, 0]，即对于长度为n 的数组，只有一个元素是1，其余都为0。因此表征我们已知样本属于某一类别的概率是为1的确定事件，属于其他类别的概率则均为0。

one-hot 带来的问题：

对于损失函数，我们需要用预测概率去拟合真实概率，而拟合one-hot的真实概率函数会带来两个问题：

1)无法保证模型的泛化能力，容易造成过拟合；

2)全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难adapt。会造成模型过于相信预测的类别。

解决方法

使用下面的 label smoothing 可以缓解这个问题：

原理：对于以Dirac函数分布的真实标签，我们将它变成分为两部分获得（替换）

1) 第一部分：将原本Dirac分布的标签变量替换为(1 - ϵ)的Dirac函数；

2) 第二部分：以概率 ϵ ，在u(k)u(k) 中份分布的随机变量。

代码对应：

       def label_smoothing(inputs, epsilon=0.1):
          K = inputs.get_shape().as_list()[-1]    # number of channels
          return ((1-epsilon) * inputs) + (epsilon / K)

代码的第一行是取Y的channel数也就是类别数

第二行就是对应公式了。

举例说明

下面用一个例子理解一下：

假设我做一个蛋白质二级结构分类，是三分类，那么K=3；

假如一个真实标签是[0, 0, 1]，取epsilon = 0.1，

新标签就变成了（1 - 0.1）× [0, 0, 1] + (0.1 / 3) = [0, 0, 0.9] + [0.0333, 0.0333, 0.0333]

= [0.0333, 0.0333, 0.9333]

实际上分了一点概率给其他两类（均匀分），让标签没有那么绝对化，留给学习一点泛化的空间。

从而能够提升整体的效果。

下列文章表示，对K = 1000，ϵ = 0.1的优化参数，实验结果有0.2%的性能提升。

参考:
Rethinking the Inception Architecture for Computer Vision
https://arxiv.org/abs/1512.00567
https://blog.csdn.net/neveer/article/details/91646657

网友评论

NLP&NLU

本文标题：通俗理解label smoothing 标签平滑实例

本文链接：https://www.haomeiwen.com/subject/rmzvfktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

通俗理解label smoothing 标签平滑实例

问题背景

one-hot 带来的问题：

解决方法

举例说明

相关文章