概率论
概率论为定量的描述不确定性提供了一个数学框架,伴随而来的是一整套标准的的描述不确定性的定理和表示方式。通过概率论来定量描述不确定性,使得对于频率和概率的描述不再因人而异,而是可以像程序语言一样在不同的程序员和计算机之间可以准确的被传递和解释,这使得我们在了解一个事件的时候,不会被“非常”,“相当”,“极其”... 等定性的描述语言所困惑。
在人工智能相关应用中要面临很多的不确定性问题,在这个领域概率论主要应用在以下两个方面:
-
需要算法可以基于目前呈现给它的信息根据概率理论进行推理
-
从业人员可以使用概率工具来分析人工智能系统的表现
频率概率 frequentist probability:通过一个比率来描述一个或多个事件在多次重复实验中发生的概率,例如在 10000 次键盘敲击中,有多少次输入由于没有激发电容而导致输入失败。
贝叶斯概率 Bayesian probability:通过一个概率来给出一个事件属于某一性质的置信程度 degree of belief,例如某个来访的病人以多大的概率患有某种疾病。
随机变量
随机变量是一个可以随机取得不同值的变量,在本书中随机变量用不加任何修饰的小写字母 x 来表示,其可能的取值用 x1,x2... xn 来表示。当随机变量的结果是一个向量时,用黑体小写字母 x 表示,其可能的一个取值则用斜黑体字母表示 x。
随机变量本身只是对变量的所有可能的取值状态的一个描述,即 x = xi,i =
1,... ,n。而对于随机变量取得各个值的概率,则需要使用概率分布 Probability distributions 来描述。例如对于诊断一个疾病来说,诊断结果这个随机变量最简单的取值就是有(1)或没有(0)某种疾病,而疾病发生的概率则需要采用概率分布来描述,例如如果流行病学数据统计发现患病率为 10%,则 P(1) = 10%, P(0) = 90%。
根据取值的分布情况,可以将随机变量分为离散型随机变量和连续性随机变量,离散型随机变量的取值是一个个独立的分类或状态,而连续性随机变量的取值则是任意实数。基于取值情况的差异,离散型随机变量和连续性随机变量的概率分布情况也用不同的方式来描述。
概率分布
离散型随机变量的概率分布用概率分布函数 Probability mass function,PMF 来表示,离散型随机变量的概率分布函数用大写斜体字母 P 表示。概率分布函数建立了一个从随机变量取值到取得这个值的概率之间的一个函数关系:
-
这个函数的定义域 domain 是随机变量的所有可能取值
-
对于任意一个取值来说,0 ≤ P(xi) ≤ 1
-
对于所有取值来说,ΣP(xi) = 1
连续性随机变量的概率分布用概率密度函数 Probability density function,PDF 来表示,连续性随机变量的概率密度函数用小写斜体字母 p 来表示。概率密度函数在某个取值范围内的积分代表随机变量的取值在这个范围内的概率。概率密度函数的要求如下:
-
这个函数的定义域 domain 是随机变量的所有可能取值
-
对于任意一个取值来说,0 ≤ P(xi) ,注意这里不需要 ≤ 1,并且在实际应用中,连续型随机变量取得任意一个具体数值的概率都为 0
-
∫ p(x)dx = 1
边缘概率 Marginal probability
有时我们知道了一组随机变量的联合概率分布情况,而如果想知道只沿着其中一个变量方向的概率变化情况,则需要使用边缘概率分布。“边缘概率”这个命名实际上来源于在纸面上手动计算概率分布的过程:如果在计算联合概率分布时将所有 x 的取值作为行,将所有 y 的取值作为列,则 x 取某一特定值的概率将可以在行的右侧边缘加总得到。
-
对于离散型随机变量,如果已知 P(x, y),则 P(x = xi) = ΣyP(x=xi,y=yi),即加总 x = xi 时 y 沿 y 轴变化时的全部取值的概率
-
对于连续性随机变量,上述计算需要改成 ∫ p(x, y)dy
条件概率 Conditional probability
在某随机事件已发生的情况下,求另一个具有一定相关性的随机事件发生的概率称为条件概率 ,例如对于随机变量 x, y,当 x 取 xi 时,求 y 取 yi 的概率,这一计算的数学表示及计算公式为:
P(y = yi | x = xi) = P(x = xi, y = yi) / P(x = xi)
条件概率的链式法则
多维随机变量的联合概率分布可以分解为基于一个随机变量的条件概率的形式,例如对于三个随机变量:由于 P(a, b, c) = P(a| b, c)P(b, c),而 P(b, c) = P(b| c)P(c),因此 P(a, b, c) = P(a| b, c)P(b| c)P(c)。
独立分布 Independence 和条件独立 Conditional independence
-
如果对于两个随机变量 x,y, 如果对于其各自的任意取值,都有 P(x = xi, y = yi) = P(x = xi)P(y = yi),则称这两个随机变量 x,y 彼此独立,记做 x ⊥ y
-
如果对于两个随机变量 x,y 和第三个随机变量 z,如果对于x,y,z 各自的任意取值,都有 P(x = xi, y = yi | z = zi ) = P(x = xi | z = zi)P(y = yi | z = zi),则称这两个随机变量 x,y 在给定随机变量 z 下条件独立,记做 x ⊥ y | z
期望 Expectation,方差 Variance 和协方差 Covariance
在一般性的期望、方差和协方差定义时,都讨论的是随机变量本身的期望、方差和协方差,这里作者直接讨论的是随机变量的函数的期望、方差和协方差。为了便于理解,一并给出随机变量本身的期望、方差和协方差公式。
期望
随机变量自身的期望计算公式为:
- Ex = x̄ = Σxi / n,其中 i = 1, ... , n
如果随机变量 x 的概率分布为 P(x),则对于 x 的一个函数 ƒ(x),其在这个概率分布下的期望值记为 Ex~P[ƒ(x)],在不至混淆的情况下可以简记为其计算方法为 Ex[ƒ(x)]:
-
离散型随机变量:Ex~P[ƒ(x)] = ΣP(x)ƒ(x),即加总 x 所有可能取值的概率与相应取值下的 ƒ(x) 的乘积
-
连续型随机变量:Ex~P[ƒ(x)] = ∫P(x)ƒ(x)dx
从计算可以看出,由于随机变量的概率分布取值为一个标量,因此期望的计算是线性的,所以有:
- Ex[αƒ(x) + βg(x)] = αEx[ƒ(x)] + βEx[g(x)]
方差
方差则衡量的是随机变量围绕均值变化的离散程度,方差越小则分布越集中,其本质是一个期望值。随机变量自身的方差计算公式为:
- Var(x) = E[(xi - x̄)2] = Σ(xi - x̄)2 / n ,其中 i = 1, ... , n
注意这个 n 是针对样本的总体 Population 而言的,在实际计算中,我们计算的都是来自总体的部分样本的方差,假设样本的数量为 m,如果需要借此来估计总体的方差,则分母需要用 m - 1 做校正。其原因在于我们有理由相信样本本身的分布相对总体来说会更加集中,因此可以将这个结果做一定程度的放大来逼近总体的方差值。方差的平方根称为标准差 Standard deviation。
对于随机变量的某个函数 ƒ(x) 来说,其方差则可以表示为 Var(ƒ(x)) = Ex[(ƒ(x) - Ex[ƒ(x)])2]。
协方差
上述期望和方差的定义都是针对单一随机变量的,而协方差衡量的是两个随机变量之间的线性相关性。
两个随机变量样本集 x,y 的协方差计算公式为:
- Cov(x, y) = Σ(xi - x̄)(yi - ȳ) / n - 1,其中 i = 1, ... , n,n - 1 为考虑样本集对于总体的一个校正
相应的随机变量的函数 ƒ(x),g(y) 的协方差计算公式为:
- Cov(ƒ(x), g(y)) = E[(ƒ(x) - E[ƒ(x)])(g(y) - E[g(y)])
从这个计算过程可知:
-
协方差的绝对值越大代表两个变量围绕各自均值同步偏离的程度越大,也即相关性越强
-
如果结果是正的,则代表两个随机变量的多个取值围绕各自的均值总体上变化方向是一致的,即同时增加或减小,加总项中相同方向变化的项多于相反方向变化的项
-
如果结果是负值,则代表随机变量的多个取值围绕各自均值的变化方向总体上是相反的,加总项中常出现的是一个变量的取值在均值的一侧,而另一个变量的取值在均值的另一侧。这里还可以参考 GRAYLAMB的回答
相关系数
尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算值与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数,其计算公式为:
- ρ(x, y) = Cov(x, y) / (σx σy)
其中 σ 为方差,相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:
-
当 ρ = 1 时,说明在所有取值上两个随机变量围绕均值的变化方向均相同,当 ρ = -1 时反之
-
当 ρ = 0 或者非常接近 0 时,说明两个随机变量不具有线性相关性,但不一定相互独立,也可能具有其他的相关性,除此之外,还要注意相关关系并不意味着因果关系
-
当 0 < ρ < 1 时,说明两个随机变量的多个取值围绕均值变化的方向有时是一致的,有时是不一致的
协方差矩阵
当将多个随机变量构成一个向量 x 时,可以通过计算这个向量中各个随机变量之间的协方差,并构造一个协方差矩阵:Cov(x) i,j = Cov(xi, xj),这个矩阵的对角线上的元素为向量中各个随机变量的方差,即 Cov(xi, xi) = Var(xi)。
几种常见的分布
正态分布 Normal distribution
中心极限定理 Central limit theorem:从总体中多次随机抽取 n 个随机变量并计算其均值,这些均值在 n 较大时呈正态分布。中心极限定理的另一个解读方式是从总体中多次抽取 n 个随机变量并求和,这个加总的值符合正态分布。
网友评论