随机变量是对试验结果的数值化处理,即以数值型数据来表示试验的结果。之所以采用这种处理方式是希望可以将取值及其概率用一个函数的形式来表示,以方便的使用数学工具定量的对概率分布进行研究,在实际应用中可以按照一定的规则将类别型数据转化成数值型数据。基于试验结果的不同,可以将随机变量分为离散型随机变量和连续性随机变量:
-
离散型 discrete 随机变量:结果为有限个数值或者无限个序列值
-
连续型 continuous 随机变量:结果可以在某一个或多个取值区间取得任意值,例如时间,重量,距离,温度等
概率分布 Probability distribution 则是对于随机变量取得各个值的概率的一个描述,对于离散型随机变量可以定义一个概率分布函数 Probability mass fuction ƒ(x) 来描绘随机变量取得某个值时的概率,其要求:
-
ƒ(x) ≥ 0
-
Σƒ(x) = 1
离散型随机变量概率分布的获取
离散型随机变量的经验分布 Empirical discrete distribution
当已获得的样本的数据量较大时,可以通过对于各个随机变量的取值的相对频率来近似其概率,这种方法获得的概率分布称为经验分布。
离散型均匀概率分布 Discrete uniform probability distribution
如果随机变量的可能取值有 n 个,且取得每一个值的概率均等,那么这种概率分布称为均匀概率分布:
- ƒ(x) = 1 / n
离散型随机变量的期望和方差
离散型随机变量的期望值:
- E(x) = μ = Σxƒ(x)
离散型随机变量的方差:
- Var(x) = σ2 = Σ(x - μ)2ƒ(x)
由公式可知,随机变量的方差值计算公式是一个对于随机变量与均值的偏差的平方的加权平均,相应的权重系数是各个取值的概率。
双变量概率分布 Bivariate probability distribution
当研究对象为两个随机变量时,相应的概率分布称为 Bivariate probability distribution,也称为 Joint probability distribution,可以通过历史数据并采用表格的形式来统计概率分布情况:
Bivariate emperical distribution除概率分布外,一般也会通过计算协方差和相关系数了解这两个随机变量的关系,且对于两个离散型随机变量 x,y 来说,如果已知 x,y 的各自取值及概率分布,可以有两种方法来计算随机变量的协方差:
-
通过随机变量的联合分布直接计算协方差:σxy = ΣΣ[xi - E(x)][yj - E(y)]ƒ(xi, yj)
-
通过 x,y 的联合概率分布,可以获取 s = x + y 这个随机变量的取值及相应的概率,在此基础上可以计算 s 的期望、方差值,此时有:σxy = [Var(x + y) - Var(x) - Var(y)] / 2
更一般地,有:
-
E(ax + by) = aE(x) + bE(y)
-
Var(ax + by) = a2Var(x) + b2Var(y) + 2abσxy
前述离散型随机变量可以通过采用列表的形式进行统计频数来获得相应的概率,最终获取取值的概率分布,还有一类离散型随机变量的概率分布可以通过一定的数学公式来描述。
二项分布 Bionomial distribution
二项分布最早的研究出自数学史上的一个著名的家族——伯努利家族,因此也叫伯努利概型,其主要特点为:
-
试验考察的是对一个现象的多次重复观察
-
每一次实验的可能结果都只有两个:我们可以定义其中的一个为“成功”,并将其概率用 p 表示,而相反的结果则可以认为是“失败”,其概率用 1 - p 表示
-
p 在每一次实验中是保持不变的
-
这些 n 次试验之间是彼此独立的
我们感兴趣的是在这 n 次实验中成功的次数 x 是多少,很明显这里 x 是一个离散型随机变量,对应的成功次数 x 的概率分布称为二项概率分布。
可以认为二项分布的多次试验是一个分步进行的过程,因此可以采用树状图来可视化多次试验的结果的组合:
Tree diagram for bionomial distribution由于 n 次试验产生的所有可能的试验结果的数量为 2n,当我们考虑这所有的结果中成功的次数 x 时,是将结果中出现 x 次成功的试验从 2n 个结果中进行抽取,且 x 内部对于次序没有要求,因此所有结果中出现成功次数为 x 的结果的次数可以采用组合的知识进行计算:
- Cnx = n! / [x!(n - x)!]
每一个连续 n 次试验的结果组合中有 x 次成功的概率为:
- px(1-p)n-x
将上述两个公式组合起来就是所有 n 次试验中出现 x 次成功的概率,也即二项分布的概率分布函数:
- ƒ(x) = px(1-p)n-x n! / [x!(n - x)!]
由于二项分布非常常用,且其计算中包含了大量的常数项,所以为了方便使用,已经针对不同的 n,x 及 p 建立了二项分布表,可以从表格中查取。
Bionomial probability table当 n = 1 时,由于 x = 1 表示成功,x = 0 表示失败,所以二项分布是对 0 - 1 分布的一个多次试验。对于 0 - 1 分布来说,可以按照定义计算其期望值为 p,方差为 p(1 - p),由于在二项分布中 n 次试验彼此独立,因此有 n 次实验的期望及方差为:
-
E(x) = μ = np
-
Var(x) = σ2 = np(1 - p)
泊松分布 Poisson probability distribution
泊松分布的命名也来自于其最早的研究者 Simeon Poisson,这个分布是对某个具有一定发生频率的事件在某个时间和空间跨度内发生的次数的一个描述,例如一小时内前来某个洗车场的客户的数量,飞机每 100000 公里所需要的维修的次数,符合泊松分布的随机变量的特点为:
-
事件在两个相同间隔(时间、空间)长度内发生的概率是相同的
-
某一个时间间隔内事件是否发生与另一个时间间隔内事件是否发生是独立的
这一分布研究是基于日常生活中大量现象的发生是有一定频数 Frequency 可循的,通过对于历史数据的统计,我们可以得到这个频数。这个频数是对事件发生的频繁程度的一个总体水平的衡量,实际上某一个时间间隔内发生的次数 x 是不确定的,因而是个随机变量。
如果我们用 λ 表示单位时间内出现的频数,t 表示需要考察的时间,难么这个时间间隔内发生 x 次的概率为:
- ƒ(x) = (λt)xe-λt / x!
从上式中可以看出这个概率尽管从理论上 x 可以取得任何值,但当 x 非常大的时候,可以通过计算得知其概率趋近于 0,即基本不可能发生。
泊松分布的期望和方差均为 λ,其可以认为是 n 很大而 p 很小的二项分布的一个极限形式,对于泊松分布和下一节 指数分布 的理解我参考了 阮一峰的博客 和 QUETAL 的博客,在此表示感谢!
免责声明
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。
网友评论