前面一部分讲了些概率论的知识,这部分我们来讲讲课上讲过的随机变量及其分布。
可以把这一部分当作速查。
离散型随机变量
二项分布(Binomial Distributions)
如果记 X 为 n 重伯努利实验中成功(记为事件 A )的次数,则 X 的可能取值为0,1……,n。记 p 为每次试验中 A 发生的概率,即 ,则
。这个分布称为二项分布,记为
那么事件成功 k 次的概率就是
关于组合数符号
写法一直有点争议,只要知道是怎么算就好。当然还有
二项分布是一种常用的离散分布,比如:
- 检查 10 件产品,10 件产品中不合格的个数X服从二项分布 b(10,p),其中p为不合格率。
- 射击5次,5次命中次数Z服从二项分布b(5,p),其中p为射手的命中率。
二项分布的均值、方差(variance)、标准差为(Standard Deviation):
泊松分布(Poisson distribution)
泊松分布的概率分布列为:
泊松分布只有一个参数,即 ,
。记为
。
泊松分布常与单位时间(或者单位面积、单位产品)等上的计数过程相联系,比如
- 一天中,来到某商场的顾客数目
- 某一服务设施在一定时间内受到的服务请求的次数
- 汽车站台的等候人数
泊松分布的均值(数学期望)和方差均是
泊松分布还有一个非常实用的特性,即可以用泊松分布作为二项分布的一种近似。当二项分布n很大,p很小,而乘积 的大小适中时候,可以用泊松分布近似。
根据课件上来说,一般是
超几何分布(Hypergeometric distribution)
从一个有限总体中,进行不放回抽样往往会遇到超几何分布。
设有 N 件产品,其中有 M 件不合格品。若从中不放回地随机抽取 n 件,则其中含有的不合格的件数 X 服从超几何分布,记为 。超几何分布的概率分布列为
超几何分布的数学期望和方差为:
当抽取个数远小于产品总数的时候,每次抽取后,总体中的不合格率 改变甚微,所以不放回的抽样就可以近似变成放回抽样。这时候超几何分布就可以用二项分布近似了。
跟我们相关的超几何分布的应用就是基因富集分析(enrichment analysis)。
基因富集常见的方法有
- Fisher精确检验
- 超几何分布
- 二项分布
- 卡方检验
- ……
关于基因富集的部分我们后面再讲。这里我只提下利用超几何分布来检验富集分析。
比如我们对根再生这个通路很感兴趣。我们想要知道这个通路在我们的差异基因中是不是显著富集的。我们得到了 2000 个差异基因,跟根再生通路相关的基因有50个。拟南芥全体基因有 25000 个,其中跟根再生通路相关的有 100 个。那么这里 25000 就是 N,100就是M。2000就是n,50就是k。然后我们就可以计算 p 值了。
当然,p值应该是要考虑加上极端值的累积概率。可能不单单是一个点的值。即应该用1-phyper而不是dphyper。后面差异富集部分一起讲吧。
连续型随机变量
正态分布(Normal Distributions)
一个随机变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一般都可以认为服从正态分布。比如人的身高、测量误差等。
正态分布的密度函数和分布函数太长了,就不写了,可以自己去翻阅PPT。正态分布记为
正态分布还可以转换成标准正态分布:
若随机变量 ,则
正态分布的应用应该就是后面要讲到的 t-test,所以这里就不讲了。
还有一点就是当前面的二项分布的
就是用正态分布来近似二项分布,
计算
分布函数、概率分布列、概率密度函数
分布函数就是累积分布函数(Cumulative Distribution Function,CDF),指的就是小于等于 a 的值出现概率的和。具有累积特性。比如对于标准正态分布而言,到负无穷到 0 为止的概率和就是0.5。常表示为:
就像下图就是正态分布的累积分布函数图
![](https://img.haomeiwen.com/i6921941/a79fb2ea12be3dc4.png)
概率分布列,或者说概率质量函数(probability mass function,PMF),就是针对离散型变量而言,离散型变量在特定取值上的概率。
概率密度函数(probability density function,PDF)就是针对连续型变量而言。因为连续型变量在特定取值上的概率肯定是0,所以对连续型变量使用概率分布列是没有意义的。概率密度函数曲线上的面积就是概率值。
下图就是正态分布的概率密度函数图
![](https://img.haomeiwen.com/i6921941/10b12c2d74851f2b.png)
这个短暂篇幅不太好讲,如果想再深入,建议看书。
R实现
R的实现可以用《R语言实战》第二版的第90页的这张图表示:
![](https://img.haomeiwen.com/i6921941/ca1ace9c9c13ea45.png)
dpqr加上对应的分布缩写,就可以变成任一的概率函数了。让我们来稍微解释下dpqr
d开头的密度函数应该是包含了离散型随机变量的概率分布列,连续型随机变量的概率密度函数。
比如我们想要算二项分布的概率分布列。以扔硬币为例,扔3次硬币,每次朝上的概率为0.5。
# 0,1,2,3次朝上的概率
> dbinom(0,3,0.5)
[1] 0.125
> dbinom(1,3,0.5)
[1] 0.375
> dbinom(2,3,0.5)
[1] 0.375
> dbinom(3,3,0.5)
[1] 0.125
我们想要看看正态分布的概率密度,比如我们想要看标准正态分布,0那点的概率密度是多少。(看上面的图,应该是0.4左右)
> dnorm(0)
[1] 0.3989423
p开头的分布函数就是我们之前提到过的累积分布函数。你可以想象成,在累计分布函数曲线上的x轴上,你设定一个值,那个值所对应y值(累积概率)是多少。还是前面两个例子。
我们想要看看,掷3次硬币,扔到小于等于1次正面的概率。
# 就是0次正面+1次正面
> dbinom(0,3,0.5) + dbinom(1,3,0.5)
[1] 0.5
# 直接用p函数算。
> pbinom(1,3,0.5)
[1] 0.5
我们想要看看从负无穷到0为止,总共的概率和。恰好就是一半的概率。
> pnorm(0)
[1] 0.5
q开头的分位数函数可以想象成,在累积分布函数的y轴上,你设定一个y值,那个y值(累积概率)所对应的x值是多少。
感觉分位数对于连续型变量比较常见。比如我们想要知道标准正态分布的97.5%分位点是多少,即曲线下面积是0.975的时候,所对应的x值。我们也可以说,这个x值比97.5%的值都大。
> qnorm(0.975)
[1] 1.959964
r开头的就是生成各种类型的随机数了。
网友评论