美文网首页
生物统计学---几种常见分布

生物统计学---几种常见分布

作者: 日月其除 | 来源:发表于2021-04-29 14:12 被阅读0次

写在前面
在学习统计学中,一直没有真正理解和记住常见的统计学分布,对后面的统计推断也迷迷糊糊,所以在这里总结整理一下。
参考书籍:李春喜 姜丽娜 邵云 张黛静编写生物统计学第五版


几个概念:
频率&概率:n次重复实验,事件A发生m次,则\frac{n}{m}为事件A发生的频率。当n不断增大时,\frac{n}{m}逐渐稳定并且接近某一个值,记作p,那么此时定义p为其概率。
概率分布::简单来说,就是事件发生x次(x为随机数字)时的概率的分布情况。例如种子发芽,发1~n颗事件与其相对应的概率之间的关系。
大数定理:一言蔽之,n足够大的时候,事件A发生的频率等于事件A的频率。
离散型随机变量:变量x_i(i=1,2,...n)都有一个相应的概率,n为有限多个或者无线可列多个。比较简单的例子就是仍骰子,扔到1~6的六个事件概率均为1/6。
连续型随机变量:例如人类身高这种数据,一般需要分组求其频率,在无限大n(即将数值区间进行无限细化),将频率就接近概率。
无偏估计:对N的近正态总体抽样,每次抽取n,总共有C_{N}^{n}种抽样方式。记录每种抽样方式所得到的样本的平均值和方差,标准差。所以就得到了C_{N}^{n}个样本的平均数以及方差,标准差。除以n计算其平均值,样本平均数的平均值=总体平均值,样本方差的平均数s^2=总体方差\delta^2。因此,样本平均数\overline{x}可以用来估计总体平均数u,样本方差s^2可以用来估计总体方差\delta^2。所以这两个是无偏估计。样本标准差不是无偏估计。这里的标准差不是方差开根号,而是使用C_{N}^{n}个样本标准差求取平均值。此处的方差是使用C_{N}^{n}个样本方差求均值。
注意:C_{N}^{n}个样本的平均数的平均值等于总体平均值,以此推断单次抽样的平均值可以用来估计总体平均值。我的理解是,当n足够大的时候,单次抽样的平均值\overline{x}在总体平均值左右徘徊,抽样误差满足正态分布。n越大,抽样误差除以n,就会导致误差非常小,单次抽样平均数\overline{x}无限接近总体平均值u

几种常见的理论分布:


二项式分布:

  • 基本概念:
    满足条件:1)重复的独立实验;2)事件只有两种结果,例如抛硬币只有正反两种结果,种子只有发芽和不发芽两种结果。事件A\overline{A}的概率分别为p 以及p(即1-q)。
    P(x) = C_{n}^{x}p^xq^{n-x}
    其实就是高中学习过的排列组合,从n次实验中,其中有x个事件成功,n-x个事件失败,其中成功事件的概率为p。二项分布分布记作B(n,p)
  • 二项式分布的形状
    二项式分布主要有n,p两个参数决定。
二项式分布图
图中可以看出,当n值变大的时候,或p值接近0.5的时候,概率分布趋近对称。
注意:其中纵坐标是n次实验中事件A发生x次的概率,p是一次实验中,事件A发生的概率。
  • 两个参数:
    二项成数分布平均数:u_p=p
    二项成数分布的标准差:\theta_p = \sqrt\frac{pq}{n}
    之前有做到一个考题。打靶中知道打靶命中率p,求n次打靶中最可能命中多少次。这个问题就是去解二项分布曲线中的最高点。

泊松分布

  • 基本概念
    满足条件:1)事件出现的概率小,即p比较小;2)试验次数大,即n很大。感觉是一种特殊的二项式分布。只是pn的取值较大。当p < 0.1甚至0.01时,泊松分布更为合适。泊松分布非常适用于研究小概率事件,比如基因变异等。
    泊松分布的概率函数:
    p(x) = \frac{e^{-\lambda}{\lambda}}{x!}
    泊松分布图
    其中:u = \lambda\sigma^2 = \lambda。即平均数和方法都等于\lambda
    既然泊松分布是一种特殊的二项式分布,当\lambda增大时,泊松分布逼近正态分布N(\lambda,\lambda)。当\lambda = 20及以上时,泊松分布就非常接近于正态分布。

正态分布

  • 基本概念
    前面介绍的两种分布是离散型变量分布,接下来介绍的是连续性随机变量的分布------正态分布。是平时用的最多的一种分布,试验误差一般服从这种分布。而且二项式分布和泊松分布在满足一定的条件下,可以近似于正态分布。多数变量以\delta围绕在平均数左右。
    正态分布概率函数:f(x) = \frac{1}{\delta\sqrt{2{\pi}}} e^{-{\frac{1}{2}}(\frac{x-u}{\delta})^2}
    其中u是总体平均数,\delta是总体标准差。正态分布中最重要的两个参数。正态分布一般记作N(u,\delta^2)
  • 分布形状:
    正态分布曲线
    其中u影响曲线的位置,\delta影响曲线的胖瘦。
  • 标准正态分布
    u = 0, \delta^2 = 1的正态分布。记作N(0,1)。在计算时,常常需要对正态分布标准化,任何满足N(u,\delta^2)的正态分布都满足: u = \frac{x-u}{\delta}
    我的理解就是把曲线进行一个平移转换。u和标准正态分布N(0,1)相比,在平均数0上加了一个u\delta和1相比乘了一个\delta
    因为标准正态分布有详尽的表格。将正态分布的值转移到标准正态分布N(0,1)中对应的值,就可以很方便的计算其概率以及概率累积。整个曲线下面的面积,即整个曲线的概率累积为1。这里也可以看出,两个正态分布是可以互相加减的。

t分布
由前面的无偏估计可知,当样本容量n比较大(n>30)的时候,可以用样本方差s^2估计总体方差\delta^2。但是如果样本容量不够大的时候,即小于30的时候,这个时候\frac{\overline{x}-u}{\frac{s}{\sqrt{n}}}不服从正态分布。我的理解就是从N个总体中,抽选n个样本,一共有C_N^n种方式,但是如果n很小,那么每次抽样所得到的平均和总体平均数之间就会相差很大。那个抽样误差就不满足正态分布。而是满足自由度df = n -1的t分布。
t = \frac{\overline{x}-u}{s_{\overline{x}}} = {\frac{\overline{x} - u}{\frac{s}{\sqrt{n}}}}
其中s_{\overline{x}}为样本平均数的标准误。样本标准误反映的是样本均数之间的差异,是多个样本平均数的标准差。

t分布概率密度函数
t分布种平均数u_t = 0(df > 1)方差{\delta}^2 = \frac{df}{df-2}。t分布曲线和正态分布很像,当df>30时,曲线接近正态分布。
t分布和正态分布曲线

\chi^2检验
从标准正态分布N(0,1),抽取k个样本,得到k个值,将这k个值得平方和加起来,定义为\chi^2


该式子后面利用表准正态分布的转化公式。
\chi^2分布的概率累积函数:
F(\chi^2) = \int_{0}^{\chi^2}f(\chi^2)d(\chi^2)
\chi^2分布的曲线主要由自由度决定。即从标准正态分布种抽取的独立样本数量决定,当抽取的独立样本数量k越大,则自由度 df= k -1就越大,那么就越接近正态分布。

F分布
刚才讲到的\chi^2分布是从标准正态分布(非标准正态分布可以进行转换)中抽取k个样本,计算其平方和。
这里的F分布是从正态分布N(N, {\delta^2})中抽取样本容量为n_1n_2的两个样本。样本方差分别为s^2s^2,定义:
F = \int_0^Ff(x)dF

F分布曲线
我感觉和\chi^2的分布还是蛮像的。
总结
遇到考试题时,第一步要分析判断该事件符合什么样的分布,再把公式往里面套用。
对t分布及后面的\chi^2F分布的理解,可以加深对后面统计推断中的t检验,卡方检验有合理的运用。判断在哪种情况下使用哪种检验方式来推断p值。

相关文章

  • 生物统计学---几种常见分布

    写在前面在学习统计学中,一直没有真正理解和记住常见的统计学分布,对后面的统计推断也迷迷糊糊,所以在这里总结整理一下...

  • 正态分布在统计学里是怎样的存在?

    正态分布(Normal distribution)是统计学里最常见的分布之一。 In probability th...

  • 统计学-常见的分布

    1.几何分布 期望1/p 方差q/p^ 21.进行一系列相互独立的实验2.每次实验会成功/失败,单次成功概率相同,...

  • 统计学

    一、几种常见的随机变量分布形式和场景 正态分布 : 人的身高 二项分布 : 扔硬币 泊松分布 : λ^k/k...

  • 高斯过程回归

    高斯过程回归 一、高斯分布   高斯分布(正态分布)是一种非常常见的连续概率分布。其在统计学上十分重要,经常用在自...

  • 机器学习中正态分布为什么常见?

    统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等...

  • 统计学学习-1

    看了几篇统计学资料:恍然间不知道概率分布[二项分布] 与抽样分布[t 分布] 差别。 大家知道,统计学分为描...

  • R统计学(06): 负二项分布

    前面我们介绍了多种离散型概率分布,大家可以点击下方链接来回顾: R统计学(01): 伯努利分布、二项分布 R统计学...

  • R统计学(05): 泊松分布

    前面我们介绍了多种离散型概率分布,大家可以点击下方链接来回顾: R统计学(01): 伯努利分布、二项分布 R统计学...

  • 统计学基础汇总

    统计学术语 下面是一些常见的医学或生物学统计学术语。 数据和变量 在了解这两个术语之前,先看一组数据,从这组数据出...

网友评论

      本文标题:生物统计学---几种常见分布

      本文链接:https://www.haomeiwen.com/subject/rqzsuhtx.html