有统计学教科书在讲到“标准误”时,写下了这样一句话——“样本均数的标准误是样本均数的标准差”!
是的,你没有看错,就是这样写的——“样本均数的标准误是样本均数的标准差”!
有人甚至用“无耻”来形容这句话。但最可气的是,这句让人认为“无耻”的话却是完全正确的。这又是为什么呢?
本质上,标准差与标准误确实是一个东西,但为什么称呼不一样?关键在于,它们所谈论的对象不一样,标准差是针对一次抽样的原始数据而言的;而标准误是针对多次抽样的样本均数而言的(也可以是其他统计量)。
这里首先要指出的是,为什么我们这里在谈均数的时候,总是把“样本”两个字带上?因为,样本均数和均数(一般是总体均数的简称),在统计学上有很大的区别,样本均数是随着抽样而变化的,它是一个变量;而总体均数,虽然未知,但它只有一个,是不变的;这一点我们要先明确。
比如,经常讲的一个例子,如果想要检验某个地区的人均身高是否是1.75m,怎么做呢?
可以从这个地区的人群中随机抽取1000名居民,获得这1000名居民身高的样本均数和样本标准差,进行假设检验,这就是大家最熟悉的单样本t检验。
此处需要提醒的是,在进行假设检验时,我们的关注点在样本均数上,即我们不太关注原始数据的情况,而是关注由这个样本计算的样本均值了。
现在,在脑海中重复上面的操作:比如我们随机抽取100次,每次都抽取1000名,所以,我们会得到100个样本均数,将这100个样本均数放在一起再求均数和标准差,得到的均数会更加接近全国这个总体的均数,而这个标准差就是我们说的“标准误”。
理清了这个过程,再来看这句话——“样本均数的标准误是样本均数的标准差”是不是就能理解了呢?
所以,就计算而言,标准差和标准误没有区别,好比我们将一组样本的原始身高用 x来表示,其样本均数一般用x̄表示,如果现在我们不用 x̄表示,而用字母y 表示,
设 y=x̄
那么此时对y求标准差的过程不就和x没啥区别了吗?只是换了变量而已,由x
变成了y 。
因此,明白了把样本均数作为一个(新)变量来看,就会明白标准误和标准差其实没有本质的区别。如果非要说区别的话,用互联网的语言,可以将“标准误”理解成“经过二次迭代的标准差”,也就是说,标准差是针对最原始变量的(即本例中的人群的身高);而标准误是针对样本均数的(即本例中的身高的样本均数)。
网友评论