Chapter3

作者: ForCLovC | 来源:发表于2019-08-08 20:26 被阅读0次

3.1 为什么要使用概率?

因为机器学习通常必须处理不确定量,有时也可能需要处理随机 (非确定性的) 量。

随机量的三个来源:

· 建模系统的内在随机性。比如纸牌游戏是一个模型的话,随机抽到不同的牌

· 不完全观测。即使是确定的系统,当不能观测到所有驱动系统行为的变量 时,该系统也会呈现随机性

· 不完全建模。舍弃某些观测信息的建模,舍弃的信息会 导致模型的预测出现不确定性

两种概率派别:

· 频率派概率( frequentist probability): 直接与事件发生的频 率相联系。 直接从事件本身建模,比如二项分布(n次伯努利实验)

· 贝叶斯概率( Bayesian probability):涉及到确定性水 平。 从人为认知的水平建模,比如医生用信任度判断病人(病人只有一个,没有n个)



3.2 随机变量

随机变量( random variable)是可以随机地取不同值的变量。

随机变量可以是离散的或者连续的


3.3 概率分布

概率质量函数( probability mass function, PMF):描述离散型变量的概率分布,通常每一个(离散型)随机变量都会有一个不同的概率质量函数

作用:概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率

符号:P(x = x)

根据函数的定义:函数概念含有三个要素:定义域A、值域C和对应法则f。在PMF里面定义域为x,值域为P( P=[0,1] ),法则 f = P(x) (PMF为分段函数)

概率质量函数可以同时作用于多个随机变量,就相当于一个函数有两个未知数。这种多个变量的概率分布被称为联合概率分布


概率密度函数( probability density function, PDF):描述连续性变量的概率分布

求概率密度的方法:求x 落在集合 S 中的概率可以通过 p(x) 对这个集合求积分来得到(实际上就是求p(x)图像某一段的面积,因为概率密度函数是区间的,后面会说)

总结一下:

概率密度函数(PDF)针对的是连续变量,例如正态分布

概率质量函数(PMF)针对的是离散变量,例如泊松分布。

对比与一般的函数,概率函数中x为自变量x,P(x)为因变量y,p(x)为函数关系f(x)。 注意因变量为大P,函数为小P



3.4 边缘概率

定义:知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为 边缘概率分布



3.5 条件概率


解释:
某个事件,在给定其他事件发生时出现的概率

公式:P(y=y|x=x)=\frac{P(y=y|x=x)}{P(x=x)},其中给定 x = x, y = y 发生的条件概率。即在 | 后面的是条件,前面的是概率



3.6 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:

P(x^{(1)},\cdot\cdot\cdot,x^{(n)})=P(x^{(1)})\prod\nolimits_{i=2}^nP(x^{(i)}\ |\ x^{(1)},\cdot\cdot\cdot,x^{(i-1)})



3.7 独立性和条件独立性

独立性:一个因子只包含 x 另一个因子只包含 y,我们就称这两个随机变量是相互独立的

p(x = x; y = y) = p(x = x)p(y = y)

条件独立: 在给定的z条件下x和y独立

 p(x = x; y = y \ |\  z = z) = p(x = x \ |\  z = z)p(y = y \ |\  z = z)



3.8 期望、方差和协方差

期望 (expectation):当 x 由 P 产生, f 作用于 x 时, f(x) 的平均值,也就是概率函数p(x)的平均值

求期望:

离散随机变量:求和:\sum_{x}^{}P(x)f(x)

连续随机变量:求积分(求函数图像的面积):\int_{}^{}P(x)f(x)dx

方差(variance):衡量的是当我们对 x 依据它的概率分布进行采样时, 随机变量 x 的函数值会呈现多大的差异:

求方差:

Var(f(x)) = E[(f(x) - E[f(x)])^2]   理解:对f(x)的期望的误差

协方差( covariance):在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度

求协方差

Cov(f(x), g(y)) = E[(f(x) − E[f(x)])(g(y) − E[g(y)])]  理解:变量x和变量y的各自标准准差相乘

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远

两个变量如果相互独立那么它们的协方差为零,如果两个变量的协方差不为零那么它们一定是相关的

两个变量相互依赖但具有零协方差是可能的

即: 两个变量互相独立和他们的协方差为零这句话是充分不必要的



3.9 常用概率分布

1. Bernoulli 分布( Bernoulli distribution, 伯努利分布):单个二值随机变量的分布

伯努利分布:结果只有0和1,典型例子:扔硬币

二项分布:n次伯努利试验的离散概率分布,典型例子:扔n次硬币

伯努利分布是二项分布在n=1的情况

2. Multinoulli 分布( multinoulli distribution, 多项式分布)是指在具有 k 个不同状态的单个离散型随机变量上的分布,其中 k 是一个有限值

多项式分布:有k个结果,典型例子:扔骰子

3. 高斯分布( Gaussian distribution),也称为正态分布( normal distribution)

符号:N(x;\mu , \sigma) 表示关于x的高斯分布,其中

µ:中心峰的 x 坐标,是分布的均值,峰的宽度受 σ 控制

σ:峰的宽度,是分布的标准差,方差用\sigma^2表示

标准正态分布( standard normal distribution),µ = 0; σ = 1

高斯分布非常好用!可是为什么呢?

1. 我们想要建模的很多分布的真实情况是比较接近正态分布的。 中心极限定理( central limit theorem)说明很多独立随机变量的和近似服从正态分布

2. 在具有相同方差的所有可能的概率分布中, 正态分布在实数上具有最大的不确定性

4. 指数分布、拉普拉斯分布

指数分布(exponential distribution):在 x = 0 点处取得边界点 (sharp point) 的分布

公式:p(x; λ) = λ1_{x≥0} exp(−λx)

拉普拉斯分布( Laplace distribution):允许我们在任意一点 µ 处设置概率质量的峰值

公式:Laplace(x; µ; γ) = \frac{1}{2γ}exp (−\frac{|x−\mu |}{\gamma })

5. 狄拉克分布、经验分布

狄拉克delta函数(Dirac delta function):在除了 0 以外的所有点的值都为 0,但是积分为 1。把分布中的所有质量都集中在一个点上

经验分布(empirical distribution):将概率密度 \frac{1}{m}赋给 m 个点 x^{(1)},...,x^{(m)}中的每一个,这些点是给定的数据集或者采样的集合

6. 混合模型:

一个非常强大且常见的混合模型是高斯混合模型( Gaussian Mixture Model).

高斯混合模型的参数指明了给每个组件i 的 先验概率( prior probability)这里引入两个概念:先验概率和后验概率:

· 先验概率( prior probability):是指根据以往经验和分析得到的概率

· 后验概率( posterior probability):(一个条件概率,条件是已经发生的环境)事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小

比如赌场买大小:

先验概率:大和小的分布是1/2(不算围骰)

后验概率:连续开了10把小,下一把是大的概率

在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近



3.10 常用函数

1. logistic sigmoid

公式:\sigma(x) = \frac{1}{1+exp(-x)}

sigmoid 函数在变量取绝对值非常大的正值或负值时会出现 饱和( saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感

sigmoid 函数图像

2. softplus

公式\zeta (x) = log(1+exp(x))

softplus 函数可以用来产生正态分布的 β 和 σ 参数,因为它的范围是 (0; 1)

softplus函数图像


3.11 贝叶斯规则

作用:知道P(x)(先验概率)P(y\ |\ x)(条件概率)计算P(x\ |\ y)(后验概率)

公式P(x\ |\ y)=\frac{P(x)P(y\ |\ x)}{P(y)}    P(y) = \sum\nolimits_{x}P(y\ |\ x)P(x)

相关文章

网友评论

      本文标题:Chapter3

      本文链接:https://www.haomeiwen.com/subject/taoadctx.html