1. 概念
总体参数:假设我们想研究中国人的身高状况,可能包括身高的平均值、身高的具体分布、身高的方差、标准差等。那么全体中国人就是一个总体,身高的平均值就是一个总体参数。
样本统计量:现实生活中,大部分时候,去调查总体的全体元素是不可行的,因此才会有采样和样本的概念。假设我们随机了找了1000个中国人,统计了他们的身高。这1000个中国人就叫一个样本,他们的平均身高就是一个样本统计量。
因此,最常用的操作是:用样本统计量去估计总体的参数。比如使用样本的平均值估计总体的期望值,用样本的方差去估计总体的方差,用样本的类别比例(针对类别变量)去估计总体的类别占比情况,等。事实上,均值、方差、比例是三个最常使用的参数。
2. 问题
以均值为例,我们随机采集了1000个人的身高,算出了一个平均身高,假设我们再随机采集1000个人的身高,算一个平均值。这俩均值很可能是不相等的。所以,样本均值不是一个确定的数,我们每采集一个样本都能算出一个数来。事实上,样本均值是一个随机变量。
而由于我们不可能能遍历所有的样本,所以这个随机变量的分布是不可知的。换言之,当用样本统计量去估计总体参数时,我们是在用一个分布未知的随机变量去估计我们想要的总体参数,听起来变数就太大了。
所以我们需要一些定理来论证我们这些估计的可靠性等,还好,我们有中心极限定理。
网友评论