推断性统计学是用样本(历史数据)的估计量(离散型或连续型)推断总体(将来)的对应的参数值(离散型或连续型)。推断性统计学有概率理论、抽样理论、估计理论和假设检验理论四个理论组成部分,其中抽样理论由抽样设计和抽样分布两部分组成。
抽样设计
从总体中抽取合适样本的方法,使得由样本到总体的推断是合理的,这一过程称为抽样设计,即对一个存在的测量总体,制定一种从中抽取测量样本的方法。抽样方法必须满足独立性与随机性。
根据抽样总体的不同,抽样情形可以分为对无限大总体抽样、对有限总体有放回抽样以及对有限总体无放回抽样。其中对有限总体无放回抽样的容量N相对于样本容量n小的时候(n>0.05N),认为该抽样违反了独立性。
抽样设计方式分为简单随机抽样设计、分层随机抽样设计、系统随机抽样设计以及整群随机抽样设计四种。
抽样分布
如果从某个总体中取出容量为n的样本,可以获得一套关于这n个样本的一套统计量,当这个过程重复k次,可以获得k套统计量,这些样本统计量从而形成了某种概率分布,这些统计量形成的频数(概率)分布就称为抽样分布。常用的抽样分布有:近似正态分布、t分布、卡方分布、F分布。
样本均值
均值的理论抽样分布:有总体N,每次从中抽取固定容量为n的样本并计算该样本的均值,如果将所有可能 抽取的样本列出并计算均值,这些均值的频率分布则被称为理论抽样分布。
均值的经验抽样分布:在抽样计算均值的过程中没有抽取所有可能的样本计算均值,则被称为经验抽样分布。随着样本个数主键趋近‘所有可能的样本’,经验抽样分布逐渐趋近理论抽样分布。
中心极限定理:对无限大总体抽样、有限总体有放回抽样以及有限总体无放回抽样(总体容量N>=2*样本数量n),如果n足够大(总体正态或近似正态,n>20/25;总体未知,n>=30),均值的理论抽样分布近似服从正态分布。即虽然很多总体的分布并不是正态分布,但是大样本统计量一般符合正态分布,该现象被称为中心极限定理。
Z-分布:服从正态分布的均值抽样分布转换为标准正态分布称为Z-分布。Z-分布适用于正态分布总体抽样或样本容量大于30的抽样,能够通过样本信息推断总体均值。
t-分布:从正态分布总体中抽取数量为n的样本,总体中的随机变量T对应在样本中的值t形成的抽样分布称为t分布。t分布的核心是描述了小样本情况下的样本统计量的分布。t分布是一个分布族,每个整数自由度对应一个分布:当自由度无限时,t分布就是标准正态分布;随着自由度减小,曲线越发平坦,当自由度小于30时,t分布与标准分布相差较大。因此,在实际情况中,当总体数量较大,而抽样数量在30以内就可以用t分布替代正态分布描述抽样分布,但是t分布在大量样本抽样也是可用的。t分布最常用的情况是假设检验的t检验,分为单样本检测和双样本检测,模式都比较固定。
切比雪夫(Chebyshev)定理:给定一组数据x1,x2,…,xn,其均值假定为μ,标准差σ>0,则对任意k≥1,位于区间[μ-kσ,μ+kσ]内的数据所占比例大于等于1-1/k2。在总体分布未知(或非正态)且样本容量较小(n<30)时,可以采用切比雪夫定理近似估计总体均值。
样本方差
卡方分布:
卡方值计算 卡方统计量(表明样本方差与总体方差的比值关系)决定的抽样分布称为卡方分布。卡方分布描述了取自正态总体的n个样本的卡方值的分布。卡方分布是一个概率分布族,对每一个自由度都有一个具体的卡方分布与其对应。低自由度的卡方分布曲线是不对称的,长尾拖在右边(右偏)。随着自由度的增加,卡方分布逐渐变成单峰,且越来越对称,但并不是关于0对称,而是关于自由度对称,这些特性与Z分布和T分布有很大不同。卡方分布能够用于样本方差到总体方差的推断性分析。除此之外,卡方分布还能用于非参数检验,称为卡方检验,不过卡方 检验的卡方统计量公式与上面卡方统计量公式是不一样的。F分布:
F值计算F统计量其实可以认为是由两个卡方统计量相除得到的,因此F分布也被称为方差比分布。F分布也是一个概率分布族,由分子和分母的两个自由度决定一个F分布曲线.,随着分子和分母自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1。F分布处理的则是两个总体之间的关系,即通过两个样本之间的关系推导出两个总体之间的关系。F分布能够用于推断两个总体方差之间的比值关系;除此之外,F分布还是后面将要介绍的方差分析的理论基础
网友评论