目录
- 总体参数与点估计量
- 数学符号和计算公式
- 中心极限定理
- 比例抽样分布
- 均值抽样分布
申明
本文是一篇读书笔记,内容来自于对《深入浅出统计学》相关章节的理解和总结。由于不是相关专业,因此在理解上可能存在错误或者偏差。如果有任何不正确的地方,欢迎指正
大学毕业后好多年再去看统计学,几乎是全新的内容。《深入浅出统计学》一书,给了我很多的乐趣,也给我信心学习下去。在看到抽样和抽样分布的相关章节,感觉很多概念让我很困扰,因此静下心反复阅读和理解才有的此篇笔记。
开始之前,先来了解两个概念。任何数据相关的研究,都是从数据集开始。比如要研究人口的身高、体重,那么是需要收集一个区域内人口相关数据。但我们知道,收集该区域内所有人口的数据,几乎是不可能的。从实践上说,一般的做法是抽样。通过样本的数据,放到统计学模型中来研究总体。
总体参数与点估计量
什么是总体参数?举个栗子,比如还是上面那个例子,我们想知道某个区域人口的身高均值,标准差。这里的身高均值和标准差就是总体参数。现在,通过样本,计算出来的样本均值以及标准差,就是点估计量。
样本均值称为总体均值的点估计量。其意义是,通过样本数据的计算结果,给出总体均值的良好估计。需要注意一点,良好估计并不是说这二者完全吻合,但是是能做出的最好的估计了。
数学符号和计算公式
常用的一些统计量,有专门的数学符号表示。这里,需要对总体参数和点估计量做一个区别。具体如下:
- :总体的均值
- :总体均值的点估计量
- :样本均值 (读作x拔)。
- :总体方差
- :总体方差的点估计量
- :样本方差。
- :标准差
均值计算公式:
方差计算公式:
这里使用n-1而不是n,是因为总体方差往往大于样本方差,除数变小那么除法的结果就相对大一些,这样更接近总体方差。之所以说总体方差大于样本方差,原因是:方差描述的是数值与均值的偏差。从总体中抽样,或多或少会把总体中的一些异常值排除掉,这样就导致偏差变小。至于为什么是n-1而不是减2减3,请另行查阅其他资料。
使用点估计量固然可以很好的估计总体,但这需要一个前提:样本本身是无偏的。所谓无偏,是一个理想的概念。以研究人口身高为例,作为一个无偏的样本,要求样本中包含的各种类型的人(比如出身年月,男女比率,肤色等因素)比例与总体是基本相当的,但实际抽样中比较难做到。另外,如果现在已经知道总体样本参数已知,需要通过总体来求样本比例本身的概率(后面将有例子帮助理解),这时候,需要通过抽样分布来解决这个问题。
抽样分布
如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得的结果称为抽样分布。
上面这个对抽样分布的解释,来自书本。这里提到用相同的抽样方法抽取有差异的样本,不过实际应用中可能不会真实这么去做。原因是,当抽取的样本数目比较大的时候,抽样分布趋于正态。(后面介绍的比例抽样分布以及均值抽样分布,最后到计算都是转化为标准的正态分布来解决)
比例抽样分布
下面是书中的一个例子:
对于糖球,总体中,红色糖球占比25%(非红色糖球占比75%)。现在有一种大包装的糖球,一盒有100个。问题来了:一大盒特定糖球中有40颗或者40颗以上的红色糖球的概率是多少?
这里就需要通过比例抽样分布来解决。求一盒中有40颗或者以上的概率,实际上也就是求一盒中红色糖球的比例大于等于40%的概率。那现在假设我们抽取了许许多多大小为100颗球的样本,而后:
- 用n表示样本的大小,且n = 100
- 用X表示样本中红球糖球的数目,X符合二项分布:X ~ B(100, 1/4) (这里我有点困惑,我可以理解X符合二项分布,但是为什么概率是1/4,也就是和总体占比一致?因为样本中红球的比例其实不一定是1/4,暂且留个问号。)
- 样本红球的比例为:
通过所有的样本,就能得出所有样本的比例分布(这也是比例抽样分布名字的含义),也就是的分布。利用比例的抽样分布,能够求出某一个随机选择的、大小为n的样本的『成功比例』的概率。套到上面的例子中就是:通过所有大小为100个糖球的样本,形成所有样本中红色糖球的比例分布,来计算红色糖球比例大于等于40%的概率。接下,通过三个步骤来解决这个问题,也是求解样本比例的概率分布的一般做法:
- 查看特定样本大小相同的所有样本
- 观察所有样本形成的分布,然后求出比例的期望和方差
- 得出上述比例的分布后,利用该分布计算概率
下来就先来求解的期望。已经X符合二项分布,因此通过下面公式计算出期望:
通过下面的公式求出方差:
对方差取平方根,即可得出标准差,这里也称为“比例标准误差”:
n越大,比例标准误差就越小,也就越接近总体的红球比例。当n很大时候,的分布接近正态分布,也就是:
到这里,基本上大功告成了。后面只需要将非标准正态分布,转化为正态分布,然后查表就能算出相应的概率。最后,不要忘记了,可能还需要进行连续性修正。
均值抽样分布
下面是书中的另一个例子:
现有小包装与的糖球,根据对总体的统计,对于小包装糖球平均一包有10个,方差是1。现在接到顾客的投诉,原因是一个顾客买了30袋这种小包装的糖球,均值仅为8.5,这与宣称的均值是10不符。现在,需要计算一下,发生这种事情多概率是多大?
分解一下例子,也就是要解决这个问题:购买30袋小包装糖球,平均糖球数小于或者等于8.5的概率是多少?求解的思路与上个例子类似,步骤也参考上面的例子。这里也来罗列一下一些已知的东西:
- 总体的均值和方差,分别用和表示
- 随机选择一袋糖球都是X的一个独立观察结果,每一袋糖球的期望和方差与总体一致
- 抽取n包糖球(例子中,n为30)作为样本,用表示样本中某袋的观察,由上可知的期望和总体一致,即:,
- 用表示这n包糖球的均值,则
综上,可计算出的期望和方差:
根据中心极限定理可知,接近正态分布。与上面例子类似,通过将非标准正态分布,转化为正态分布,然后查表就能算出相应的概率,大功告成。
中心极限定理
如果从一个非正态总体X中取出一个样本,且样本很大,则样本均值分布近似正态分布。
网友评论