概率分布(Probability Distribution),用于描述随机变量取某个特定的值或取某一区间范围内值的概率。
可以这样理解:概率1以一定的规律,分布在各个可能值或可能范围上。
对于离散型随机变量,概率分布描述变量取某一可能值的概率;对于连续型随机变量,概率分布描述变量取某一范围内值的概率。
1. 离散型随机变量
离散型随机变量,是指全部可能取到的值是有限个或可列无限多个。
常见的的离散型随机变量有:
- (0-1)分布 (两点分布)
- 二项分布 (伯努利试验)
- 泊松分布
1.1 (0-1)分布
对于(0-1)分布,其概率分布规律如下,即,随机变量取0或1这两个值的概率。
也可以写成:
(0-1)分布的概率分布很明确,无需SAS处理。
1.2 二项分布 (伯努利试验)
假设试验E只有两个可能结果A、B,则称E为伯努利(Bernoulli)试验。如果将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
假设在一次伯努利试验中,事件A发生的概率为p,则事件B发生的概率为1-p。以X表示n重伯努利试验中事件A发生的次数,那么事件A发生k次的概率分布规律如下:
SAS中函数probbnml
返回二项分布的概率,具体语法如下:
probbnml(p, n, k)
1.3 泊松分布 (Poisson)
泊松分布定义如下,其概率如定义:
SAS中函数poisson
返回泊松分布的概率,具体语法如下:
poisson(m,k),m为定义中的常数。
2. 连续型随机变量
2.1分布函数
连续型随机变量与离散型随机变量不同,其可能值不能一一列举出来。同时,连续型随机变量任取一实数值的概率都等于0,我们关注所取的值落在一个区间的概率,即:
由于:因此,引入随机变量的分布函数的概念,即,用函数来描述连续型随机变量的概率分布规律。
2.2 概率密度函数
如果对于随机变量X的分布函数F(x), 存在非负函数f(x), 使对于任意实数x有
则称X为连续型随机变量,其中函数f(x)为X的概率密度函数,简称概率密度。即,通过概率密度函数的定积分来求得分布函数值。
于是有,
由定义可知,f(x)个别点的函数值不影响分布函数F(x)的取值,因为点的定积分值为0。
下面介绍下几个常见连续型随机变量分布的概率密度。
2.3 正态分布
正态分布的概率密度为,
一般对于正态分布的随机变量,可以通过线性变换,将其转化为标准正态分布:
分布函数是对概率密度的定积分,SAS中可以通过函数probnorm
计算标准正态分布的分布函数值。代码举例如下:
data tmp;
a = probnorm(-1.96);
run;
结果如下:
其含义是,对于服从标准正态分布的随机变量,在一次抽样中,其值≤-1.96的概率为0.025。
2.4 卡方分布
卡方分布对应的概率密度如下,n为卡方分布的自由度,
卡方分布的分布函数值,可以通过SAS函数probchi
获取,
probchi(chi, df)
2.5 t分布
t分布对应的概率密度如下,n为t分布的自由度,
t分布的分布函数值,可以通过SAS函数probt
获取,
probt(t, df)
2.5 F分布
F分布对应的概率密度如下,n1、n2为F分布的自由度,
F分布的分布函数值,可以通过SAS函数probf
获取,
probf(f, df1, df2)
2.6 分位点的概念
以卡方分布举例:
结合定义和上面图形,我们可以得出,
P{X > 分位点值} = 1 - F(分位点值)
其中,F(分位点值) = P{X ≤ 分位点值}, 即上图中概率密度曲线下空白处的面积。α分位点,表示自分位点起往后的,概率密度曲线下尾部面积为α。
总结
文章介绍了随机变量的概率分布含义,列举了常见的离散型与连续型随机变量概率分布,以及对应的SAS计算概率。
对于离散型随机变量,计算的概率为取特定值的概率;对于连续型随机变量,计算的概率为其分布函数值, F(x) = P{X ≤ x},即其概率密度函数定积分的取值。
最后,介绍了分位点的概念,这个概念在假设检验中会有应用。
感谢阅读, 欢迎关注!
若有疑问,欢迎评论交流!
网友评论