写在前面
在学习统计学中,一直没有真正理解和记住常见的统计学分布,对后面的统计推断也迷迷糊糊,所以在这里总结整理一下。
参考书籍:李春喜 姜丽娜 邵云 张黛静编写生物统计学第五版
几个概念:
频率&概率:n次重复实验,事件A发生m次,则为事件A发生的频率。当n不断增大时,逐渐稳定并且接近某一个值,记作p,那么此时定义p为其概率。
概率分布::简单来说,就是事件发生x次(x为随机数字)时的概率的分布情况。例如种子发芽,发1~n颗事件与其相对应的概率之间的关系。
大数定理:一言蔽之,n足够大的时候,事件A发生的频率等于事件A的频率。
离散型随机变量:变量(i=1,2,...n)都有一个相应的概率,n为有限多个或者无线可列多个。比较简单的例子就是仍骰子,扔到1~6的六个事件概率均为1/6。
连续型随机变量:例如人类身高这种数据,一般需要分组求其频率,在无限大n(即将数值区间进行无限细化),将频率就接近概率。
无偏估计:对N的近正态总体抽样,每次抽取n,总共有种抽样方式。记录每种抽样方式所得到的样本的平均值和方差,标准差。所以就得到了个样本的平均数以及方差,标准差。除以n计算其平均值,样本平均数的平均值=总体平均值,样本方差的平均数=总体方差。因此,样本平均数可以用来估计总体平均数,样本方差可以用来估计总体方差。所以这两个是无偏估计。样本标准差不是无偏估计。这里的标准差不是方差开根号,而是使用个样本标准差求取平均值。此处的方差是使用个样本方差求均值。
注意:个样本的平均数的平均值等于总体平均值,以此推断单次抽样的平均值可以用来估计总体平均值。我的理解是,当n足够大的时候,单次抽样的平均值在总体平均值左右徘徊,抽样误差满足正态分布。n越大,抽样误差除以n,就会导致误差非常小,单次抽样平均数无限接近总体平均值。
几种常见的理论分布:
二项式分布:
-
基本概念:
满足条件:1)重复的独立实验;2)事件只有两种结果,例如抛硬币只有正反两种结果,种子只有发芽和不发芽两种结果。事件和的概率分别为p 以及p(即1-q)。
其实就是高中学习过的排列组合,从n次实验中,其中有个事件成功,个事件失败,其中成功事件的概率为。二项分布分布记作B(n,p)。 -
二项式分布的形状
二项式分布主要有两个参数决定。
图中可以看出,当n值变大的时候,或p值接近0.5的时候,概率分布趋近对称。
注意:其中纵坐标是n次实验中事件发生次的概率,是一次实验中,事件发生的概率。
-
两个参数:
二项成数分布平均数:
二项成数分布的标准差:
之前有做到一个考题。打靶中知道打靶命中率,求n次打靶中最可能命中多少次。这个问题就是去解二项分布曲线中的最高点。
泊松分布
-
基本概念:
满足条件:1)事件出现的概率小,即比较小;2)试验次数大,即很大。感觉是一种特殊的二项式分布。只是和的取值较大。当时,泊松分布更为合适。泊松分布非常适用于研究小概率事件,比如基因变异等。
泊松分布的概率函数:
泊松分布图
其中:, 。即平均数和方法都等于。
既然泊松分布是一种特殊的二项式分布,当增大时,泊松分布逼近正态分布。当及以上时,泊松分布就非常接近于正态分布。
正态分布
-
基本概念:
前面介绍的两种分布是离散型变量分布,接下来介绍的是连续性随机变量的分布------正态分布。是平时用的最多的一种分布,试验误差一般服从这种分布。而且二项式分布和泊松分布在满足一定的条件下,可以近似于正态分布。多数变量以围绕在平均数左右。
正态分布概率函数:
其中是总体平均数,是总体标准差。正态分布中最重要的两个参数。正态分布一般记作。 -
分布形状:
正态分布曲线
其中影响曲线的位置,影响曲线的胖瘦。 -
标准正态分布:
的正态分布。记作。在计算时,常常需要对正态分布标准化,任何满足的正态分布都满足:
我的理解就是把曲线进行一个平移转换。和标准正态分布相比,在平均数0上加了一个,和1相比乘了一个。
因为标准正态分布有详尽的表格。将正态分布的值转移到标准正态分布中对应的值,就可以很方便的计算其概率以及概率累积。整个曲线下面的面积,即整个曲线的概率累积为1。这里也可以看出,两个正态分布是可以互相加减的。
t分布
由前面的无偏估计可知,当样本容量n比较大(n>30)的时候,可以用样本方差估计总体方差。但是如果样本容量不够大的时候,即小于30的时候,这个时候不服从正态分布。我的理解就是从N个总体中,抽选n个样本,一共有种方式,但是如果n很小,那么每次抽样所得到的平均和总体平均数之间就会相差很大。那个抽样误差就不满足正态分布。而是满足自由度df = n -1的t分布。
其中为样本平均数的标准误。样本标准误反映的是样本均数之间的差异,是多个样本平均数的标准差。
t分布种平均数方差。t分布曲线和正态分布很像,当df>30时,曲线接近正态分布。
t分布和正态分布曲线
检验
从标准正态分布,抽取个样本,得到个值,将这个值得平方和加起来,定义为。
该式子后面利用表准正态分布的转化公式。
分布的概率累积函数:
分布的曲线主要由自由度决定。即从标准正态分布种抽取的独立样本数量决定,当抽取的独立样本数量越大,则自由度 就越大,那么就越接近正态分布。
分布
刚才讲到的分布是从标准正态分布(非标准正态分布可以进行转换)中抽取个样本,计算其平方和。
这里的分布是从正态分布中抽取样本容量为和的两个样本。样本方差分别为和,定义:
我感觉和的分布还是蛮像的。
总结
遇到考试题时,第一步要分析判断该事件符合什么样的分布,再把公式往里面套用。
对t分布及后面的,分布的理解,可以加深对后面统计推断中的t检验,卡方检验有合理的运用。判断在哪种情况下使用哪种检验方式来推断p值。
网友评论