第一节均数的抽样误差与标准误
1、抽样误差
由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。
2、样本均数的抽样分布特点
- 各样本均数未必等于总体均数
- 样本均数之间存在差异(可以利用这一点来观察抽样误差的规律)
- 样本均数分布有规律,基本服从正态分布
- 样本均数的变异比总体的变异小
- 随着样本含量的增加,样本均数的便宜范围逐渐缩小
3、均数的标准误
样本均数的标准误差称为均数的标准误( standard error of mean , SEM )用 σx 表示,说明了各样本均数 X 围绕总体均数 μ 的离散程度,可以用来描述样本均数的抽样误差大小
4、标准差(Standard Deviation), 标准误差(Standard error),变异系数 (Coefficient of Variance )的区别与联系
-
标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
-
标准误差(Standard error),也称均方根误差(Root mean squared error)或标准误(Standard Error),标准误差是指在抽样试验(或重复的等精度测量)中,常用到样本平均数的标准差。标准差与标准误差,计算公式类似,但是是两个不同的概念。对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。
-
变异系数(Coefficient of Variance),标准差与平均数的比值称为变异系数,记为C.V。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。 简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它也是表示离散程度,是标准差和相应平均数的比值。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
所以,标准差是针对特定的一组数据而言,看数据序列偏离均值的程度;而标准误差则是针对n组数据而言,看每次抽样的效果如何,可以理解为n组数据标准差的标准差。
第二节 t 分布( t-distribution )
用于根据小样本来估计呈正态分布且变异数未知的总体的平均值。如果总体变异数已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t 分布t 分布
1、t 分布特征
由上图可以看出,t 分布是与自由度 df (或者 v )有关的曲线。以 t = 0 中心对称,自由度越大越接近标准正态分布。
第三节 总体均数的估计
参数估计是指用样本统计量来估计总体参数,分为点估计(不考虑抽样误差,直接使用样本参数),区间估计(给出估计参数的范围)
1、点估计
无法评价可信度,很少使用
2、区间估计
用数轴上的一段距离或一个数据区间,表示总体参数的可能范围。这一段距离或数据区间称为区间估计的置信区间(CI)。
置信区间这里有一个很好的解释,知乎邹日佳。
网友评论