损失函数（1）：交叉熵

作者: brucep3 | 来源:发表于2018-05-30 17:17 被阅读0次

损失函数 - 交叉熵损失函数
损失函数的选择
交叉熵损失函数原理详解
交叉熵损失函数
机器学习随笔
理解熵，交叉熵和交叉熵损失
机器学习常见问题
Tensorflow & Keras的loss函数总结
损失函数（1）：交叉熵
pytorch【损失函数模块】一、损失函数之一

1、自信息
定义：由克劳德·香农提出，是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。用信息的单位表示，例如bit（以2为底）、nat（以e为底）或者hart（以10为底），使用哪个单位取决于在计算中使用的对数的底。（信息的编码长度）
假设一个随机变量X取值为x的几率为p(x)，则它的自信息公式为：[图片上传失败...(image-3c2241-1527671842491)]&space;=&space;log&space;(\frac{1}{P(x)}))
特性：可加性

2、熵
定义：在信息论中，熵（entropy）是接收的每条消息中包含的信息的平均量。
假设随机变量X值域为{x1, ..., xn}，该随机变量X的熵值定义如下：[图片上传失败...(image-da1d21-1527671842491)]&space;=&space;\mathrm{E}[\mathrm{I}(X)]&space;=&space;\mathrm{E}[-\ln(\mathrm{P}(X))])
其中，P为X的概率质量函数，E为期望函数，I(X)为X的自信息。当取自有限的样本时，熵的计算公式为：[图片上传失败...(image-26338d-1527671842491)]=\sum&space;{{i}}{{\mathrm&space;{P}}(x{i}),{\mathrm&space;{I}}(x_{i})}=-\sum&space;{{i}}{{\mathrm&space;{P}}(x{i})\log&space;{b}{\mathrm&space;{P}}(x{i})})
熵的特性：连续性、对称性、极值性和可加性

3、条件熵
定义：描述了在已知第二个随机变量X的值的前提下，随机变量Y的信息熵还有多少。

如果H(Y|X=x)为变量Y在变量X取特定值x条件下的熵，那么H(Y|X)就是H(Y|X=x)在X取遍所有可能的x后取平均的结果。给定随机变量X和Y，在给定X条件下Y的条件熵定义为：

条件熵的链式法则：

条件熵的贝叶斯规则：H(Y|X) = H(X|Y) - H(X) + H(Y)

4、互信息

5、联合熵
定义：是一集变量之间不确定性的衡量手段
两个变量X和Y的联合信息熵公式为：[图片上传失败...(image-1afda5-1527671842491)]=-\sum&space;{{x}}\sum&space;{{y}}P(x,y)\log&space;{2}[P(x,y)]!)
对于两个以上的变量X1，X2, ... , Xn，该式的一般形式为：[图片上传失败...(image-527b62-1527671842491)]=-\sum&space;{{x_{1}}}...\sum&space;{{x{n}}}P(x_{1},...,x_{n})\log&space;{2}[P(x{1},...,x_{n})]!)
特点：大于每个独立的熵；少于独立熵的和
与条件熵的关系：[图片上传失败...(image-fd5c0a-1527671842491)]=\mathrm{H}&space;(X,Y)-\mathrm{H}&space;(Y),)
与互信息的关系：[图片上传失败...(image-5003ba-1527671842491)]=\mathrm{H}&space;(X)+\mathrm{H}&space;(Y)-\mathrm{H}&space;(X,Y),)

6、相对熵（KL散度，KL距离，Kullback–Leibler divergence）
定义：是两个概率分布P和Q差别的非对称性度量。是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外位元数（额外所需的编码长度）。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布或者P的近似分布。

对于离散随机变量，其概率分布P到分布Q的KL散度为：

等价于：

也可以写成：

即按概率P求P和Q的对数差的平均值P * (I(Q) - I(P))，其中P*I(Q)就是交叉熵。
特点：非负、不对称
非负的证明：吉布斯不等式？？？

7、交叉熵：
定义：基于相同时间测度的两个概率分布P和Q的交叉熵是指，当基于一个“非自然”（相对于“真实分布”P而言）的概率分布Q进行编码时，在时间集合中唯一标识一个事件所需要的平均比特数（使用非真实分布Q所指定的策略消除系统不确定性所需要付出的努力大小）。
基于概率分布P和Q的交叉熵定义为：

概率分布是离散时：

概率分布是连续时：

再解释：交叉熵可以看做每个信息片段在错误分布Q下的期望编码位长度，而信息实际分布为P。这就是期望Ep是基于P而不是Q的原因。
交叉熵与KL散度的关系：交叉熵 = KL散度 + 熵，因为熵是不变的，所以交叉熵和KL散度在特定环境下是等价的（比如最优化条件）。

8、代价函数：交叉熵
KL散度可以用来估计模型分布和训练数据分布的差异，我们假设训练数据分布和真实分布一致，则通过最小化KL散度可以使得模型分布于训练分布尽可能近似，同时也与真实数据尽可能相似。训练数据的分布是已知的，所以训练数据的熵也是已知，那么最小化KL散度等价于最小化交叉熵，所以通过最小化交叉熵可以训练模型。

9、朴素贝叶斯中的应用

10、神经网络中的应用