给女朋友写的生统资料_Part10

作者: 城管大队哈队长 | 来源:发表于2019-06-03 17:03 被阅读0次

给女朋友写的生统资料_Part10
给女朋友写的生统资料_Part19
给女朋友写的生统资料_Part14
给女朋友写的生统资料_Part15
给女朋友写的生统资料_Part11
给女朋友写的生统资料_Part12
给女朋友写的生统资料_Part13
给女朋友写的生统资料_Part16
给女朋友写的生统资料_Part17
给女朋友写的生统资料_Part18

前面一部分讲了些概率论的知识，这部分我们来讲讲课上讲过的随机变量及其分布。

可以把这一部分当作速查。

离散型随机变量

二项分布（Binomial Distributions）

如果记 X 为 n 重伯努利实验中成功（记为事件 A ）的次数，则 X 的可能取值为0，1……，n。记 p 为每次试验中 A 发生的概率，即 $P(A)=p$ ，则 $P(\bar{A})=1-p$ 。这个分布称为二项分布，记为 $X\sim{b(n,p)}$

那么事件成功 k 次的概率就是
$P(X=k)=C_{n}^{k}p^k(1-p)^{n-k}\quad,k=0,1,……,n$

关于组合数符号 $C_n^{k}和C_{k}^{n}$ 写法一直有点争议，只要知道是怎么算就好。当然还有 $\binom{n}{k}$

二项分布是一种常用的离散分布，比如：

检查 10 件产品，10 件产品中不合格的个数X服从二项分布 b（10，p），其中p为不合格率。
射击5次，5次命中次数Z服从二项分布b（5，p），其中p为射手的命中率。

二项分布的均值、方差（variance）、标准差为（Standard Deviation）：
$\mu=np\\ \sigma^2=npq\\ \sigma=\sqrt{npq}$

泊松分布（Poisson distribution）

泊松分布的概率分布列为：
$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$
泊松分布只有一个参数，即 $\lambda$ ， $\lambda >0$ 。记为 $X\sim P(\lambda)$ 。

泊松分布常与单位时间（或者单位面积、单位产品）等上的计数过程相联系，比如

一天中，来到某商场的顾客数目
某一服务设施在一定时间内受到的服务请求的次数
汽车站台的等候人数

泊松分布的均值（数学期望）和方差均是
$\mu=\sigma^2=\lambda$
泊松分布还有一个非常实用的特性，即可以用泊松分布作为二项分布的一种近似。当二项分布n很大，p很小，而乘积 $\lambda=np$ 的大小适中时候，可以用泊松分布近似。

根据课件上来说，一般是
$n >= 100\\ np <=10$

超几何分布（Hypergeometric distribution）

从一个有限总体中，进行不放回抽样往往会遇到超几何分布。

设有 N 件产品，其中有 M 件不合格品。若从中不放回地随机抽取 n 件，则其中含有的不合格的件数 X 服从超几何分布，记为 $X\sim{h(n,N,M)}$ 。超几何分布的概率分布列为
$P(X=k)=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}$
超几何分布的数学期望和方差为：
$\mu=n\frac{M}{N}\\ \sigma^2=\frac{nM(N-M)(N-n)}{N^2(N-1)}$
当抽取个数远小于产品总数的时候，每次抽取后，总体中的不合格率 $p=\frac{M}{N}$ 改变甚微，所以不放回的抽样就可以近似变成放回抽样。这时候超几何分布就可以用二项分布近似了。

跟我们相关的超几何分布的应用就是基因富集分析（enrichment analysis）。

基因富集常见的方法有

Fisher精确检验
超几何分布
二项分布
卡方检验
……

关于基因富集的部分我们后面再讲。这里我只提下利用超几何分布来检验富集分析。

比如我们对根再生这个通路很感兴趣。我们想要知道这个通路在我们的差异基因中是不是显著富集的。我们得到了 2000 个差异基因，跟根再生通路相关的基因有50个。拟南芥全体基因有 25000 个，其中跟根再生通路相关的有 100 个。那么这里 25000 就是 N，100就是M。2000就是n，50就是k。然后我们就可以计算 p 值了。

当然，p值应该是要考虑加上极端值的累积概率。可能不单单是一个点的值。即应该用1-phyper而不是dphyper。后面差异富集部分一起讲吧。

连续型随机变量

正态分布（Normal Distributions）

一个随机变量如果是由大量微小的、独立的随机因素的叠加结果，那么这个变量一般都可以认为服从正态分布。比如人的身高、测量误差等。

正态分布的密度函数和分布函数太长了，就不写了，可以自己去翻阅PPT。正态分布记为 $X\sim{N(\mu,\sigma^2)}$

正态分布还可以转换成标准正态分布：

若随机变量 $X\sim{N(\mu,\sigma^2)}$ ，则 $U=(X-\mu)/\sigma \sim {N(0,1)}$

正态分布的应用应该就是后面要讲到的 t-test，所以这里就不讲了。

还有一点就是当前面的二项分布的
$np\ge5\\ nq\ge5$
就是用正态分布来近似二项分布，
$\mu=np \\ \sigma=\sqrt{npq}$

计算

分布函数、概率分布列、概率密度函数

分布函数就是累积分布函数（Cumulative Distribution Function，CDF），指的就是小于等于 a 的值出现概率的和。具有累积特性。比如对于标准正态分布而言，到负无穷到 0 为止的概率和就是0.5。常表示为：
$F(a)=P(X \le a)$
就像下图就是正态分布的累积分布函数图

概率分布列，或者说概率质量函数（probability mass function，PMF），就是针对离散型变量而言，离散型变量在特定取值上的概率。

概率密度函数（probability density function，PDF）就是针对连续型变量而言。因为连续型变量在特定取值上的概率肯定是0，所以对连续型变量使用概率分布列是没有意义的。概率密度函数曲线上的面积就是概率值。

下图就是正态分布的概率密度函数图

10_2.png

这个短暂篇幅不太好讲，如果想再深入，建议看书。

R实现

R的实现可以用《R语言实战》第二版的第90页的这张图表示：

10_3.png

dpqr加上对应的分布缩写，就可以变成任一的概率函数了。让我们来稍微解释下dpqr

d开头的密度函数应该是包含了离散型随机变量的概率分布列，连续型随机变量的概率密度函数。

比如我们想要算二项分布的概率分布列。以扔硬币为例，扔3次硬币，每次朝上的概率为0.5。

# 0,1,2,3次朝上的概率
> dbinom(0,3,0.5)
[1] 0.125
> dbinom(1,3,0.5)
[1] 0.375
> dbinom(2,3,0.5)
[1] 0.375
> dbinom(3,3,0.5)
[1] 0.125

我们想要看看正态分布的概率密度，比如我们想要看标准正态分布，0那点的概率密度是多少。（看上面的图，应该是0.4左右）

> dnorm(0)
[1] 0.3989423

p开头的分布函数就是我们之前提到过的累积分布函数。你可以想象成，在累计分布函数曲线上的x轴上，你设定一个值，那个值所对应y值（累积概率）是多少。还是前面两个例子。

我们想要看看，掷3次硬币，扔到小于等于1次正面的概率。

# 就是0次正面+1次正面
> dbinom(0,3,0.5) + dbinom(1,3,0.5)
[1] 0.5

# 直接用p函数算。
> pbinom(1,3,0.5)
[1] 0.5

我们想要看看从负无穷到0为止，总共的概率和。恰好就是一半的概率。

> pnorm(0)
[1] 0.5

q开头的分位数函数可以想象成，在累积分布函数的y轴上，你设定一个y值，那个y值（累积概率）所对应的x值是多少。

感觉分位数对于连续型变量比较常见。比如我们想要知道标准正态分布的97.5%分位点是多少，即曲线下面积是0.975的时候，所对应的x值。我们也可以说，这个x值比97.5%的值都大。

> qnorm(0.975)
[1] 1.959964

r开头的就是生成各种类型的随机数了。

给女朋友写的生统资料_Part10
前面一部分讲了些概率论的知识，这部分我们来讲讲课上讲过的随机变量及其分布。可以把这一部分当作速查。离散型随机变...
给女朋友写的生统资料_Part19
聚类聚类(clustering),指将样本分到不同的组中，使得同一组中的样本差异尽可能的小，而不同组中的样本差异...
给女朋友写的生统资料_Part14
之前我们提到了如果做多次的假设检验，就要考虑多重比较矫正的问题了。那有没有只用做一次检验就可以搞定的方法呢。其实是...
给女朋友写的生统资料_Part15
相关性当我们在衡量两个变量的相关关系的时候，我们可以用协方差来进行描述。协方差的公式为协即协同的意思，X的方差...
给女朋友写的生统资料_Part11
中心极限定理中心极限定理假设我们有一个总体，我们从总体中取出一个大小为5的样本。我们可以利用这个样本均值、方差...
给女朋友写的生统资料_Part12
我感觉到后面应该会讲的比较省略了，公式模板什么的套的比较多，因为主要是用来做考试复习和速查的。大家如果有什么疑问，...
给女朋友写的生统资料_Part13
Power（统计功效）关于power，我觉得下面这张图已经解释的很好了。当 H0 是正确的时候，拒绝了H0，就...
给女朋友写的生统资料_Part16
多元线性回归多元线性回归的方程写为：其中代表第个预测变量，是对应的模型参数。可以解释为在所有其他预测变量保持不变...
给女朋友写的生统资料_Part17
逻辑斯蒂回归我们之前提到的线性回归是利用X来预测Y，Y是连续型的数值变量。但有时候Y并不是连续型的变量，而是一种...
给女朋友写的生统资料_Part18
apply和function 差异基因的检验估计会用到function和apply。不过差异基因表达的functi...

给女朋友写的生统资料_Part10

离散型随机变量

二项分布（Binomial Distributions）

泊松分布（Poisson distribution）

超几何分布（Hypergeometric distribution）

连续型随机变量

正态分布（Normal Distributions）

计算

分布函数、概率分布列、概率密度函数

R实现

相关文章

给女朋友写的生统资料_Part10

给女朋友写的生统资料_Part19

给女朋友写的生统资料_Part14

给女朋友写的生统资料_Part15

给女朋友写的生统资料_Part11

给女朋友写的生统资料_Part12

给女朋友写的生统资料_Part13

给女朋友写的生统资料_Part16

给女朋友写的生统资料_Part17

给女朋友写的生统资料_Part18

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读