深度学习（三）：概率与信息论基础

作者: 交大小浪花 | 来源:发表于2019-08-10 20:38 被阅读5次

深度学习（三）：概率与信息论基础
花书第三章笔记
AI技术体系和领域浅总结
深度学习中的概率论与信息论基础
深度学习中的概率与信息论
自然语言处理NLP(三)
数据挖掘数据分析
秋招笔记--推荐算法岗
先于概率
信息量，熵，KL散度，交叉熵

版权声明:本文为博主原创文章，转载请注明出处，商业转载请联系作者(huxingfei097@163.com)，谢谢合作！

基础概念：
逻辑：
逻辑可以在给定某些命题是真或假的假设下，判断另外一些命题是真还是假。
概率：
概率可以在给定一些命题的似然后，计算其他命题为真的似然。
随机变量：
随机变量是指可以随机地取不同值的变量。通常用无格式字体中小写字母表示随机变量本身，用手写体中的小写字母来表示随机变量能够取到的值（注：markdown中暂未发现如何打出手写体字母，故以斜体代替），如，x₁和x₂都是随机变量 x 可能的取值。对于向量类型的变量 x，它的一个可能取值为 x。
随机变量可以是离散或者连续的。离散型随机变量拥有有限多个或者可数无限多的状态，注意：这些状态不一定要是整数值，可能只是被命名的状态而非数值，如，状态1，状态2，状态3...连续型随机变量伴随着实数值
概率分布：
概率分布用来描述随机变量或者一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量与概率质量函数：
离散型变量的概率分布可以用概率质量函数（PMF，也称作概率分布律）来描述。概率质量函数将随机变量能够取到的每个状态映射到随机变量取得该状态的概率，P(x)表示 x = x的概率，也可以写作P(x = x) 。通常使用～来表示一个随机变量所服从的分布：x ～ P(x)。
P(x = x,y = y)称为联合概率分布，表示 x = x 和 y = y 同时发生的概率，也可简写为 P(x,y)。
概率质量函数需要满足以下条件：
① P的定义域必须是变量 x 所有可能状态的集合。
② ∀ x∈x，0 ≤ P(x) ≤ 1
③ Σ_x∈xP(x) = 1，该性质称为归一化的
连续型随机变量与概率密度函数：
连续型随机变量的概率分布称之为概率密度函数(PDF)。概率密度函数 p 需满足以下条件：
① p 的定义域必须是变量 x 所有可能状态的集合。
② ∀ x∈x，p(x) ≥ 0。注意，并不要求 p(x) ≤ 1。
③ ∫ p(x)dx = 1。
求 x 落在某集合（区域）中的概率通过 p(x) 对该集合（区域）进行积分得到。
边缘概率：
通过一组变量的联合概率分布可以求出其中一个子集的概率分布。这种定义在自己上的概率分布被称为边缘概率分布。
对于离散型随机变量 x 和 y，已知 P(x,y)，常采用 求和法 来计算：
∀ x∈x，P(x = x) = Σ_y P(x = x,y = y)
对于连续型变量，使用 积分法 来计算边缘概率：
p(x) = ∫ p(x,y) dy
条件概率：
条件概率是在给定其他事件发生的情况下某个事件发生的概率。P(x = x| y = y)表示在x = x的情况下，y = y 发生的概率，计算公式如下：
P(x = x| y = y) = P(x = x，y = y)] / P(x = x)
条件概率只有在P(x = x)＞0 时有意义，不能计算永远不会发生的事件上的条件概率。
条件概率的链式法则(也叫乘法法则)：任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
P(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾) = P(x⁽¹⁾) ∏ⁿ_i=2P(x⁽ⁱ⁾|x⁽¹⁾，...，x^(i-1))(∏，连乘符号)

例如一个三维随机变量有如下推导过程：
P(a,b,c) = P(a | b,c)P(b,c)
P(b,c) = P(b | c)P(c)
P(a,b,c) = P(a | b,c) P(b | c) P(c)
独立性和条件独立性：
两个随机变量 x 和 y，如果他们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 x，另外一个一个只包含 y，我们就称这两个随机变量是相互独立：
∀ x∈x，y∈y，p(x = x, y = y) = p(x = x) p(y = y)
如果关于 x 和 y的条件概率分布对于 z 的每一个值都可以写成乘积的形式，那么这两个随机变量 x 和 y在给定随机变量 z 时是条件独立的：
∀ x∈x，y∈y，z∈z p(x = x, y = y | z=z) = p(x = x | z=z) p(y = y | z=z)
也可以采用一种简化形式表示独立性和条件独立性：x⊥y，表示 x 和 y独立；x⊥y|z 表示 x 和 y 在给定 z 时独立。
期望、方差和协方差：
函数 f(x) 关于某分布 P(x) 的期望或期望值是指，当 x 是由 P产生，f 作用于 x 时，f(x)的平均值。对于离散型随机变量可以采用求和法：
E_x～P[ f(x) ] = Σ_xP(x) f(x)
对于连续型随机变量，可以通过积分得到：
E_x～p[ f(x) ] = ∫ P(x) f(x) dx
方差衡量的是随机变量的取值与期望值之间的差异：
var(f(x)) = E [ ( f(x) - E[f(x)] )² ]
方差比较小的时候，随机变量的取值在期望值附近，比较稳定。方差的平方根称为标准差。
协方差 用来衡量不同变量之间的线性相关性，如果把每一个变量看作是一个维度上的值，也可以认为协方差是度量各个维度偏离其均值的程度。方差是协方差的一个特列。
Cov( f(x),g(y) ) = E[ (f(x) - E[f(x)])] E[ (g(y) - E[g(y)])]
协方差为0，则变量之间是非线性相关的。注意，两个相互独立，则协方差为零，如果协方差非零，则一定是相关的。
协方差矩阵 随机向量 x∈Rⁿ的协方差矩阵是一个 n * n的矩阵，矩阵中的元素满足：
Cov(x)_i,j = Cov(x_i,x_j)
常用概率分布：
Bernoulli分布(伯努利分布、零一分布、两点分布) 是一个二值随机变量的分布。随机变量取值只有 0 或者 1：
P(x = 1) = ф, P(x = 0) = 1 - ф
E_x[x] = ф, var_x(x) = ф(1 - ф)
Multinoulli分布(范畴分布)是指具有k个不同状态的单个离散型随机变量上的分布。Multinoulli分布由向量p∈[0，1]^{k -1}参数化，其中每个分量p_i表示第 i 个状态的概率。第 k 个状态的概率可以通过 1 - 1^Tp给出。Multinoulli分布常用来表示对象分类的分布，因此通常不计算期望和方差。
高斯分布(正态分布)：
高斯分布是机器学习中最常用的分布。在先验知识不足的时候，正态分布是默认比较好的选择。并且由中心极限定律可知很多独立随机变量的和近似服从正态分布。


高斯分布公式	高斯分布的概率密度函数图像

多维正态分布：

其中，参数μ依然表示分布的均值，但现在是向量。参数 Σ 是分布的协方差矩阵。一个更简单的版本是各向同性高斯分布，它的协方差矩阵是一个标量乘以单位矩阵。

指数分布和Laplace分布：
在深度学习中，常常需要一个在 x = 0处取得边界点的分布，可以使用指数分布：
p(x;λ) = λ1_x≥0 exp(-λx)
指示函数 1_x≥0 表示 x取得负值时的概率为0。
Laplace分布允许在任意一点 μ 处设置概率分布的峰值：


Laplace公式	Laplace分布图像

Dirac分布和经验分布：
在一些情况下，可能会希望概率分布中的所有质量集中在一个点上，这个时候可以使用Dirac delta函数δ(x)来实现（该函数做了偏移）：
p(x) = δ(x - μ)
Dirac delta函数被定义成除0以外所有点的值都为0，但是积分为1，是一种依据积分性质定义的广义函数。
Dirac分布常常作为经验分布的一个组成部分出现：经验分布将概率密度 1／m 赋给 m 个点 x⁽¹⁾，x⁽²⁾，...，x^(m) 中的每一个，这些点是给定数据集火样本采样的集合。只有在定义连续型随机变量的经验分布时，Dirac delta函数才是必要的。对于离散型随机变量，可以定义成一个Multinoulli分布。
常用函数的有用性质：
logistic sigmoid函数


公式	图像

softplus函数，softplus函数是 max(0,x)函数的平滑形式：


公式	图像

贝叶斯规则：
P(x|y) = ( P(x) P(y|x) )／P(y)
其中：
P(y) = Σ_x( P(y|x)P(x) )
信息论：
自信息：I(x) = -㏑P(x)，单位是奈特。一奈特是以 1/e 的概率观测到一个事件时获取到的信息量。自信息只处理单个的输出。
香农熵：用来对整个概率分布中的不确定性总量进行量化：H(x) = E_x～P[I(x)] = －E_x～P[ln P(x)]。也记作H(P)。换句话说，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。确定性的熵、分布具有较低的熵，接近均匀分布的概率分布具有较高的熵。当 x 是连续的时候，香农熵被称为微分熵。
KL散度：对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，可以使用KL散度来衡量两个分布的差异：在离散型随机变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码，发送包含由概率分布P产生的符号消息时，所需要的额外信息。KL散度是非负的，并且是非对称的，对于某些 P 和 Q，D_KL(P || Q) ≠ D_KL(Q||P)。
交叉熵： 和KL散度很相似：H(P,Q) = H(P) + D_KL(P || Q)
在信息论中认为lim_x→0 x (ln x) = 0
结构化模型：
机器学习（深度学习）的算法中常常会涉及在非常多的随机变量上的概率分布，为了通过分解来减少参数从而降低计算的复杂度，提出了使用图论中“图”的概念，使用图来分解概率分布时，称为结构化模型或者图模型。采用的图主要有两种：有向图和无向图，区别在于途中顶点相连边是否有有方向。特别地，有向模型对于分布中的每一个随机变量 x_i 都包含着一个影响因子