Softmax、交叉熵损失函数及导数

作者: 迎风漂扬 | 来源:发表于2019-04-13 13:18 被阅读0次

Softmax、交叉熵损失函数及导数
损失函数
python实现神经网络
Maximum Likelihood 和 Maximum A P
二.交叉熵损失函数（Softmax损失函数）
损失函数 - 交叉熵损失函数
深度学习问题记录
Neural Network and Deep Learning
Softmax激活函数、交叉熵损失及参数更新
UD机器学习 - C5 深度学习

这是一个简单的神经网络，输出层的激活函数为SoftMax，根据定义，输出层各节点的输出值为：
$y_{j}=\frac{e^{u_{j}}}{\sum_{k} e^{u_{k}}}$

其中 $u_{j}$ 是该节点的输入
$u_{j}=\sum_{i} w_{i j} x_{i}$

$x_{i}$ 是上一层节点的输出值， $w_{i,j}$ 是权重，所以：
$y_{j}=\operatorname{softmax}\left(u_{j}\right)=\frac{e^{u_{j}}}{\sum_{k} e^{u_{k}}}$

再来看损失函数：
$L=-\sum_{j} z_{j} \ln y_{j}$

$z_{j}$ 是训练实例的标签值：
$Z=\left\{z_{1}, z_{2}, \cdots, z_{j}\right\}$
显然，只有一个是正确分类，所以向量里只有一个分量值为1，其余都是0：
$Z=\left\{0,0, \cdots, z_{t}, \cdots\right\}=\{0,0, \cdots, 1, \cdots\}$

t是正确类别的下标，所以：
$L=-\ln y_{t}$

例如一个三分类的任务，正确分类是第二个，输出结果是[0.3,0.5,0.2]，所以这里的误差为：
$L=-\ln (0.5)=0.693$
再比如输出为[0.4,0.15,0.45]：
$L=-\ln (0.15)=1.897$
显然，输出是[0,1,0]时误差是0，现在要根据误差来求得 $w_{i,j}$ 的梯度：
$\frac{\partial L}{\partial w_{i j}}=\frac{\partial L}{\partial u_{j}} \frac{\partial u_{j}}{\partial w_{i j}}=\frac{\partial L}{\partial u_{j}} x_{i}$
$\frac{\partial L}{\partial u_{j}}=-\frac{\partial \ln y_{t}}{\partial u_{j}}=-\frac{\partial \ln \frac{e^{u_{t}}}{\sum_{k} e^{u_{k}}}}{\partial u_{j}}$
$\ln \frac{e^{u_{t}}}{\sum_{k} e^{u_{k}}}=\ln e^{u_{t}}-\ln \sum_{k} e^{u_{k}}$

这里求的是 $L$ 关于 $u_{j}$ 的梯度，所以要分两种情况讨论，第一种是当 $j=t$ 时：
$\frac{\partial \ln \frac{e^{u_{t}}}{\sum_{k} e^{u_{k}}}}{\partial u_{j}}=\frac{\partial\left(\ln e^{u_{j}}-\ln \sum_{k} e^{u_{k}}\right)}{\partial u_{j}}=\frac{\partial \ln e^{u_{j}}}{\partial u_{j}}-\frac{\partial \ln \sum_{k} e^{u_{k}}}{\partial u_{j}}=1-\frac{\partial \ln \sum_{k} e^{u_{k}}}{\partial u_{j}}$
$\frac{\partial \ln \sum_{k} e^{u_{k}}}{\partial u_{j}}=\frac{\partial \ln \sum_{k} e^{u_{k}}}{\partial \sum_{k} e^{u_{k}}} \frac{\partial \sum_{k} e^{u_{k}}}{\partial_{k} e^{u_{k}}}=\frac{1}{\sum_{k} e^{u_{k}}} \frac{\partial \sum_{k} e^{u_{k}}}{\partial u_{j}}=\frac{e^{u_{j}}}{\sum_{k} e^{u_{k}}}=y_{j}$

所以：
$\frac{\partial L}{\partial u_{j}}=y_{j}-1$
$\frac{\partial L}{\partial w_{i j}}=\frac{\partial L}{\partial u_{j}} \frac{\partial u_{j}}{\partial w_{i j}}=\left(y_{j}-1\right) x_{i}$

而当 $j \neq t$ 时， $u_{j}$ 并不影响 $e^{u_{t}}$ ，所以：
$\frac{\partial \ln \frac{e^{u_{t}}}{\sum_{k} e^{u_{k}}}}{\partial u_{j}}=\frac{\partial\left(\ln e^{u_{t}}-\ln \sum_{k} e^{u_{k}}\right)}{\partial u_{j}}=-y_{j}$
$\frac{\partial L}{\partial u_{j}}=y_{j}$
$\frac{\partial L}{\partial w_{i j}}=y_{j} x_{i}$

Softmax、交叉熵损失函数及导数
这是一个简单的神经网络，输出层的激活函数为SoftMax，根据定义，输出层各节点的输出值为：其中是该节点的输入 ...
损失函数
聊聊机器学习中的损失函数机器学习中的损失函数平方损失（线性回归）对数损失（交叉熵损失 softmax, lo...
python实现神经网络
主要提问点写出softmax损失函数代码（python），以及交叉熵损失函数判断和消除过拟合的方法dropou...
Maximum Likelihood 和 Maximum A P
前言在研究SoftMax交叉熵损失函数(Cross Entropy Loss Function)的时候，一种方法...
二.交叉熵损失函数（Softmax损失函数）
关于交叉熵在loss函数中使用的理解https://blog.csdn.net/tsyccnh/article/d...
损失函数 - 交叉熵损失函数
参考[1]损失函数 - 交叉熵损失函数
深度学习问题记录
献给莹莹 1.为什么交叉熵损失相比均方误差损失能提高以 sigmoid 和 softmax 作为激活函数的层的性能...
Neural Network and Deep Learning
提升学习速率交叉熵损失函数的好处：损失函数对权重的偏导中不包含sigma的导数项（可抵消），所以不会引起学习速度...
Softmax激活函数、交叉熵损失及参数更新
交叉熵（Corss Entropy）损失函数定义二分类问题: = - (y+ (1-y)) 多分类问题： ...
UD机器学习 - C5 深度学习
1 神经网络 sigmod函数和softmax函数最大似然概率和交叉熵和多类别交叉熵Logistic回归和梯度下降...