均方差损失函数和交叉熵损失函数的关系

作者: HaloZhang | 来源:发表于2020-11-15 16:44 被阅读0次

均方差损失函数和交叉熵损失函数的关系
利用神经网进行西瓜分类（上）
损失函数的选择
损失函数 - 交叉熵损失函数
[损失函数]——均方差
机器学习常见问题
理解熵，交叉熵和交叉熵损失
交叉熵损失函数原理详解
人工智能实践：Tensorflow笔记2
交叉熵损失函数

简介

在前两篇文章手写一个全连接神经网络用于MNIST数据集和全连接神经网络之反向传播算法原理推导中，我们讨论了全连接神经网络是如何应用梯度下降算法来学习权重和偏置，以及反向传播算法的工作原理。在些例子中，我们都使用了均方差损失函数，因为它的形式非常直观，直接刻画了期望输出与真实值之间的差值。但是它也有一些弊端，本文将重点讨论均方差损失函数存在的问题，并引出交叉熵损失函数。

均方差损失函数

先回忆一下均方差损失函数的定义：

图1
这里的

w

代表的是网络中所有权重的集合，

b

是所有的偏置，

n

是训练输入数据的个数，

y(x)

是输入

x

对应的标签，

a

是表示当输入为

x

时神经网络输出的向量，求和则是在总的训练输入 $x$ 上进行的。
再回忆一下，随机梯度下降算法中权重和偏置更新的方程，如下：

通过上式可以知道，权重的更新跟损失函数的偏导数

\frac {\partial C}{\partial w_k}

和

\frac {\partial C}{\partial b_l}

有关系。在学习率一定的情况下，偏导数越大，权重和偏置更新的越快。反之，越慢。
再根据全连接神经网络之反向传播算法原理推导提及到的反向传播的四个方程，如下：

我们可以看到偏导数

\frac {\partial C}{\partial w_k}

和

\frac {\partial C}{\partial b_l}

又和误差

\delta ^l

有关，而误差

\delta ^l

又与激活函数

\sigma

的导数

\sigma '

有关系。费了这么多口舌，其实是想说明权重和偏置的更新最终会和激活函数的导数

\sigma '

有关系。而这会导致一个什么问题呢？
先看下激活函数

\sigma(x) = \frac {1}{1+ e^{-x}}

的图像：

Sigmoid函数图像
对Sigmoid函数求导得：

$\sigma ' (x)$ 的图像如下：

Sigmoid导数图像
可以看到，当输入

x

较大或者较小的时候，

\sigma (x)

的值趋向于1或者0，此时

\sigma '(x)

的值就非常小，接近于0。这会导致梯度消失的问题，下面以一个小例子来说明。
令

a_i =\sigma(z_i) = \sigma(w_i*x_i \ + \ b_i)

，以下图的神经网络结构为例，它每一层只包含一个神经元：

我们可以求得 $C$ 对偏置 $b_1$ 的偏导数如下：

根据Sigmoid导数的图像可知， $\sigma '(z)$ 的最大值为0.25，而一般随机初始化的权重 $w$ 和偏置 $b$ 一般都小于1，随着层数的增加，上式中的链式求导连乘也会越来越深，则 $\frac {\partial C}{\partial b_1}$ 的值将会越来越小，导致越靠近输入层的神经元的权重和偏置越难得到更新，即便网络训练完了，这些神经元的权重和偏置还是跟初始值差不多，那么此时的深度神经网络就只相当于后几层的浅层学习网络结构了。
当然解决这个问题的办法有很多，常见的就是换成Relu激活函数，但这不是本文讨论的重点，本文将从损失函数的角度来解决这个问题。

交叉熵损失函数

如何来解决上一节提出问题呢？先给出结论，我们可以使用交叉熵损失函数来代替均方差损失函数，定义如下：

交叉熵损失函数定义

其中 $n$ 是训练样本的总数，求和是在所有的训练输入 $x$ 上进行的， $y$ 是 $x$ 对应的输出， $a$ 是神经元的输出， $a = \sigma(z)$ ，其中 $z = \sum_j w_jx_j +b$ 。
不同于均方差损失函数的定义，我们可以一眼看出来它就是衡量了期望输出与实际输出之间的误差，交叉熵损失函数貌似不太能看出来它是如何衡量期望输出和实际输出之间的误差的。下面详细解释一下，主要有2点：

它是非负的，可以看到求和符号中的每一项都是负数，累加起来之后仍然是负数，最后再添加一个负号，所以最后的结果是非负的。
如果 $a = y = 1$ 或 $a = y = 0$ ，那么 $C$ 趋近于0，如果 $a = 0，y = 1$ 或 $a = 1, y = 0$ ，那么 $C$ 会变得很大。即，神经元输出与真实值相近，交叉熵趋于0，反之，趋于无穷大，这很符合直觉。

那它是如何解决因梯度消失而导致的参数学习缓慢的问题呢？我们来求一下 $C$ 关于权重的偏导数：

注意上式证明的过程中，用到了(1)式的结论。

可以看到，在使用交叉熵损失函数之后，计算 $C$ 对权重 $w$ 的偏导数的时候，最终的式子里面没有再出现 $\sigma '(z)$ ，并且可以看出，偏导数受到 $(\sigma (z) - y)$ 的影响，即真实输出与实际输出的差值。当差别越大时，偏导数越大，权重学习速度就会越快。避免了均方差损失函数中因为 $\sigma '(z)$ 导致的学习缓慢。
同理， $C$ 关于偏置 $b_j$ 的偏导数如下：

交叉熵损失函数与均方差损失函数之间关系

上一节直接给出了交叉熵的定义，而并没有描述它是如何得出的，它究竟表示什么，最开始的研究者是如何想到这个概念的呢？

我们先以一个简单的只包含一个神经元的网络结构开始，如下：

同样采用均方差损失函数，定义如下：

其中 $a=\sigma(z)$ 是神经元的输出， $y$ 是目标输出。分别对 $w$ 和 $b$ 求偏导得：

既然我们发现了权重学习缓慢的原因是因为 $\sigma '(z)$ 的值过小，那么我们何不直接去掉上面两个偏导数中包含的 $\sigma '(z)$ 呢，那么可以得到：

如果我们选择的损失函数对权重和偏置的偏导数为上式所示，那么它们就具备了很简单直观的特性。即，误差越大，偏导数越大，神经元就学习得越快，这正是我们所需要的。我们来反向推导一下，首先有：

又 $a=\sigma (z)$ , 由(1)式可知 $\sigma'(z) = \sigma(z)(1- \sigma(z))$ ，将其带入(2)式得：

又我们令 $\frac {\partial C}{\partial b } = (a-y)$ ，故结合起来可得：

对上式进行积分：

其中 $C_1$ 是一个常量。上式是一个单独的训练样本 $x$ 对损失函数 $C$ 的贡献，为了得到整个损失函数，需要对全部训练样本进行平均，得到；

这个形式就跟我们上一节给出的交叉熵损失函数定义很相似了。可以看到，交叉熵损失函数不是凭空得来的，而是以一种自然而然的方式计算出来的。

交叉熵函数的正向推导

上一节给出了交叉熵损失函数与均方差损失函数的关系。通过改进均方差损失函数的偏导数，然后通过不定积分反向推导出新的损失函数，即交叉熵损失函数。
下面从概率的角度来推导一下交叉熵损失函数。
我们的识别手写数字的神经网络的输出层会通过激活函数 $\sigma$ ， $\sigma$ 函数函数的输出在0~1之间，这个输出可以认为是一个概率值，即代表了预测当前神经元为真的可能性。值越大，代表当前神经元输出为真的可能性越大。比如第1个神经元输出的值最大，则代表神经网络认为这个数字是“0”。
即对于输出层的某个神经元，我们用 $\hat y$ 来代表该神经元预测为真的概率：