- 目标: 理解从一个分布中抽取一个样本意味着什么
意味着, 我们可以通过计算机从一个分布的直方图或者近似曲线的概率中选取一个随机数.
- 举例: 由身高构成的直方图中, 抽取一个样本.
有时, 我们的样本会从黑色方框标记的区域产生.
Figure2还有些时候, 样本会从边缘区域产生.
- 问题1: 我们为什么要从一个分布中选取样本呢?
为了进行统计探索. 计算机可以抽样出很多样本, 而我们可能将这些样本代入到统计检验(statistics tests)中, 去探索会发生什么.
正是由于我们在抽样前知道原始分布是什么, 我们可以比较期望值与实际值.
- 例子2: 从一个分布中抽取2组样本, 每组3个样本. 针对每组样本进行t-test(T-检验)
如Figure3所示, 两组样本来自于同一个分布, 对应的为很大, 即二者并没有显著性差异.通过多次(大量)t-test, 我们可以得到值比较大的频率有多大.
- 例子3: 从两个独立(相关性很小)的分布中抽取两组样本, 每组3个样本.
这时t-test会得到比较小的, 意味着两次抽样存在着显著性差异. 如果我们抽取了很多样本, 然后做了很多次t-test, 我们可以观察值比较小的频率有多大.通过值的频率统计, 可以告诉我们, 我们是否需要增加样本量.
总结
我们从一个单分布或多个混合分布中抽取样本, 即通过计算机生成一堆随机数字, 可以使我们知道统计检验在不需要做大量工作的情况能做什么.
网友评论