1 总体标准差
已知随机变量 的数学期望为 ,标准差为 ,则其方差为:
此处 即为随机变量 的总体标准差!
2 样本标准差
上面的式子中,我们需要准确的了解随机变量 的总体分布,从而可以计算出其总体的期望和标准差。
但在一般情况下,对总体的每一个个体都进行观察或试验是不可能的。因此,必须对总体进行抽样观察(采样)。由于我们是利用抽样来对总体的分布进行推断,所以抽样必须是随机的,抽样值 应视为一组随机变量。由于抽样的目的是为了对总体的分布进行统计推断,为了使抽取的样本能很好地反映总体信息,必须考虑抽样方法。最常用的一种抽样方法叫作 “简单随机抽样”,得到的样本称为简单随机样本,它要求抽取的样本满足以下两点:
- 代表性: 中每一个与所考察的总体有相同的分布;
- 独立性: 是相互独立的随机变量。
此外,满足以上两点要求的样本一般被称为 i.i.d.样本,即独立同分布(independent and identically distributed)样本。 在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。 在西瓜书中的解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。
所以在实践中采样得到i.i.d.样本之后,可以用样本方差 来近似总体方差 :
其中, 为样本容量, 为样本均值。
上述公式的证明请参考: 为什么样本方差(sample variance)的分母是 n-1?
3 标准误
实例:已知某学校有初三学生共200名,这200名学生的平均身高为160cm.我们以这200名初三学生作为总体,欲通过抽样调查来了解所有初三学生的平均身高。现在假定我们共做了10次抽样,每次抽样量都是100人。此时我们可以分别计算出每次抽样样本的身高均数和标准差,可以得到10个均数和标准差。这里10个均数和标准差都是样本统计量,如果我们把10个样本的均数作为原始数据,然后计算这10个值的标准差,那么我们得到的指标就是标准误。
即:标准误是样本统计量的标准差,它反映了每次抽样样本之间的差异。如果标准误较小,则说明多次重复抽样得到的统计量差别不大,提示抽样误差小;反之,如果标准误较大,则说明样本统计量之间差别较大,提示抽样误差较大。标准误和标准差的区别主要体现在以下几个方面:
- 标准误的英文是Standard Error,是一种误差;而标准差的英文是Standard Deviation,只是一种对均数的偏离而已。偏离和误差根本不是一个概念。
- 标准差只是一个描述性指标,只是描述原始数据的波动情况;而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
- 它们针对计算的对象不同。标准差是根据某次抽样的原始数据计算的;而标准误是根据多次抽样的样本统计量(如均数、率等)计算的。理论上,计算标准差只需要一个样本,而计算标准误需要多个样本。
尽管从理论上来讲,标准误的计算是通过多次抽样的多个样本统计量而获得的,但在实际中仅依靠一次抽样来计算标准误也是可行的。事实上,在绝大多数情况下,我们也别无选择,只能利用一次抽样数据来计算标准误。此时标准误的计算公式为:
其中,s表示样本标准差,n为样本的例数。不难看出,样本例数越大,标准误越小,即抽样误差越小。
上述公式可由中心极限定理证明得到。
网友评论