医学统计：随机变量的概率分布、概率计算的SAS实现

作者: 野藤_ | 来源:发表于2022-07-24 22:00 被阅读0次

概率分布(Probability Distribution)，用于描述随机变量取某个特定的值或取某一区间范围内值的概率。

可以这样理解：概率1以一定的规律，分布在各个可能值或可能范围上。

对于离散型随机变量，概率分布描述变量取某一可能值的概率；对于连续型随机变量，概率分布描述变量取某一范围内值的概率。

1. 离散型随机变量

离散型随机变量，是指全部可能取到的值是有限个或可列无限多个。

常见的的离散型随机变量有：

(0-1)分布 (两点分布)

二项分布 (伯努利试验)

泊松分布

1.1 (0-1)分布

对于(0-1)分布，其概率分布规律如下，即，随机变量取0或1这两个值的概率。

也可以写成：

(0-1)分布的概率分布很明确，无需SAS处理。

1.2 二项分布 (伯努利试验)

假设试验E只有两个可能结果A、B，则称E为伯努利(Bernoulli)试验。如果将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。

假设在一次伯努利试验中，事件A发生的概率为p，则事件B发生的概率为1-p。以X表示n重伯努利试验中事件A发生的次数，那么事件A发生k次的概率分布规律如下：

SAS中函数probbnml返回二项分布的概率，具体语法如下：

probbnml(p, n, k)

1.3 泊松分布 (Poisson)

泊松分布定义如下，其概率如定义：

SAS中函数poisson返回泊松分布的概率，具体语法如下：

poisson(m,k)，m为定义中的常数。

2. 连续型随机变量

2.1分布函数

连续型随机变量与离散型随机变量不同，其可能值不能一一列举出来。同时，连续型随机变量任取一实数值的概率都等于0，我们关注所取的值落在一个区间的概率，即：

由于：

因此，引入随机变量的分布函数的概念，即，用函数来描述连续型随机变量的概率分布规律。

2.2 概率密度函数

如果对于随机变量X的分布函数F(x), 存在非负函数f(x), 使对于任意实数x有

则称X为连续型随机变量，其中函数f(x)为X的概率密度函数，简称概率密度。即，通过概率密度函数的定积分来求得分布函数值。

于是有，

由定义可知，f(x)个别点的函数值不影响分布函数F(x)的取值，因为点的定积分值为0。

下面介绍下几个常见连续型随机变量分布的概率密度。

2.3 正态分布

正态分布的概率密度为，

一般对于正态分布的随机变量，可以通过线性变换，将其转化为标准正态分布：

分布函数是对概率密度的定积分，SAS中可以通过函数probnorm计算标准正态分布的分布函数值。代码举例如下：

data tmp;
  a = probnorm(-1.96);
run;

结果如下：

其含义是，对于服从标准正态分布的随机变量，在一次抽样中，其值≤-1.96的概率为0.025。

2.4 卡方分布

卡方分布对应的概率密度如下，n为卡方分布的自由度，

卡方分布的分布函数值，可以通过SAS函数probchi获取，

probchi(chi, df)

2.5 t分布

t分布对应的概率密度如下，n为t分布的自由度，

t分布的分布函数值，可以通过SAS函数probt获取，

probt(t, df)

2.5 F分布

F分布对应的概率密度如下，n1、n2为F分布的自由度，

F分布的分布函数值，可以通过SAS函数probf获取，

probf(f, df1, df2)

2.6 分位点的概念

以卡方分布举例：

结合定义和上面图形，我们可以得出，

P{X > 分位点值} = 1 - F(分位点值)

其中，F(分位点值) = P{X ≤ 分位点值}，即上图中概率密度曲线下空白处的面积。α分位点，表示自分位点起往后的，概率密度曲线下尾部面积为α。

总结

文章介绍了随机变量的概率分布含义，列举了常见的离散型与连续型随机变量概率分布，以及对应的SAS计算概率。

对于离散型随机变量，计算的概率为取特定值的概率；对于连续型随机变量，计算的概率为其分布函数值， F(x) = P{X ≤ x}，即其概率密度函数定积分的取值。

最后，介绍了分位点的概念，这个概念在假设检验中会有应用。

感谢阅读，欢迎关注！
若有疑问，欢迎评论交流！

网友评论

本文标题：医学统计：随机变量的概率分布、概率计算的SAS实现

本文链接：https://www.haomeiwen.com/subject/fxlwirtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！