Softmax反向传播推导

作者: YoungLittleFat | 来源:发表于2019-03-30 14:49 被阅读0次

Softmax反向传播推导
神经网络之反向传播算法（BP）详细公式推导
神经网络之反向传播（BP）算法代码实现
反向传播推导
Logistic Regression
深度学习 - 前向传播和反向传播
反向传播算法推导-卷积神经网络
交叉熵反向传播推导及pytorch实现
反向传播推导过程
反向传播公式推导

Softmax公式及作用

Softmax函数，或称归一化指数函数，通常在机器学习的分类器中做输出层用。它可以将一个含任意实数的K维向量 $z$ “压缩”为另一个K维向量 $\sigma(z)$ ，使得每一个元素的范围都在 $(0,1)$ 之间，也就代表了相应输出的概率。

Softmax函数公式如下：

$\mathrm{y}=\frac{e^{\mathrm{z}}}{\sum_{i=1}^{K}{e^{z_i}}}$

Softmax的反向传播推导

我们已知：

$y_i = \frac{e^{z_i}}{\sum_{k=1}^{K}{e^{z_k}}}$

则由链式法则可得输入 $z_i$ 的梯度：

$\frac{\partial{L}}{\partial{z_i}} = \sum_{j=1}^{K}{ \frac{\partial{L}}{\partial{y_j}} \frac{\partial{y_j}}{\partial{z_i}} }$

其中 $\frac{\partial{L}}{\partial{y_j}}$ 为上一层反向传播回来的梯度。下面重点分析：

$\begin{equation} \begin{aligned} \frac{\partial{y_j}}{\partial{z_i}} &= \frac{\partial}{\partial{z_i}}\left[ e^{z_j} \cdot \left( \sum_{k=1}^{K}{e^{z_k}} \right)^{-1} \right]\\ &= \left( \sum_{k=1}^{K}{e^{z_k}} \right)^{-1} e^{z_j} \delta_{ij} - e^{z_j} \left( \sum_{k=1}^{K}{e^{z_k}} \right)^{-2} \left( \sum_{k=1}^{K}{e^{z_k} \delta_{ik}} \right)\\ &= \left( \sum_{k=1}^{K}{e^{z_k}} \right)^{-1} e^{z_j} \delta_{ij} - e^{z_j} \left( \sum_{k=1}^{K}{e^{z_k}} \right)^{-2} e^{z_i}\\ &=y_j\delta_{ij} - y_iy_j \end{aligned} \end{equation}$

上式中 $\delta_{ij}=1$ if $i=j$ ，否则为0。带回原式：

$\begin{equation} \begin{aligned} \frac{\partial{L}}{\partial{z_i}} &= \sum_{j=1}^{K}{ \frac{\partial{L}}{\partial{y_j}} (y_j\delta_{ij} - y_iy_j) }\\ &= \frac{\partial{L}}{\partial{y_i}} y_i - y_i \sum_{j=1}^{K}{\frac{\partial{L}}{\partial{y_j}}y_j} \end{aligned} \end{equation}$

码公式辛苦，转载请注明出处。

Softmax反向传播推导
Softmax公式及作用 Softmax函数，或称归一化指数函数，通常在机器学习的分类器中做输出层用。它可以将一个...
神经网络之反向传播算法（BP）详细公式推导
反向传播算法详细推导反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种...
神经网络之反向传播（BP）算法代码实现
反向传播算法实战本次的反向传播算法是基于上篇文章神经网络之反向传播算法（BP）详细公式推导实现的，如果对反向传播...
反向传播推导
Logistic Regression
推导 sigmoid 推导LR损失函数推导LR梯度下降 Softmax原理 softmax 损失函数 softm...
深度学习 - 前向传播和反向传播
英文原文深度学习---反向传播的具体案例BP（反向传播算法）公式推导及例题解析前向传播 input ->输入到-...
反向传播算法推导-卷积神经网络
在SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”中，我们推导了全连接神经网络的反向传播算法。其核心...
交叉熵反向传播推导及pytorch实现
本文主要参考反向传播之一：softmax函数[https://zhuanlan.zhihu.com/p/37740...
反向传播推导过程
举一个例子，来推到一些神经网络反向传播的流程。（bp算法）正向传播的过程：最终的损失为：我们希望cost是越...
反向传播公式推导
参考自https://www.coursera.org/learn/neural-networks-deep-le...