你可能需要参考这篇文章
抽样与抽样分布——中心极限分布、点估计
1. 区间估计
1.1 区间估计
总体参数估计的一个区间,确信该区间将参数值纳入其中。
区间估计的形式:点估计±边际误差

1.2 置信区间
区间估计中,由样本估计量构造出的总体参数在一定置信水平下的估计区间。
区间的最小值是置信下限,区间的最大值是置信上限。
1.3 置信水平/置信度/置信系数
假定抽取100个样本,构造100个置信区间,这100个置信区间中有95%的区间包含了总体参数的真值,5%没包含,95%被称为置信水平。
如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占比例称为置信水平。
2.总体均值的区间估计
2.1总体均值的区间估计:σ已知

对置信区间的理解,要注意:
(1)总体参数的真值是固定的,样本构造的区间是不固定的,置信区间是一个随机区间,会因样本的不同而变化,而且不是所有的区间都包含总体参数。
一个特定的区间总是“包含”和“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。
置信水平知识告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。
(2)使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确的区间,
2.2总体均值的区间估计:σ未知

2.3样本容量确定
令E代表希望达到的边际误差

得到下面的结论
总体均值区间估计中的样本容量

σ已知,直接用上面的式子计算。
σ未知,可以根据以下任一方法确定:
(1)根据以前研究中的数据计算总体标准差的估计值作为σ的计划值
(2)利用实验研究,选取一个初始样本,以初始样本的标准差作为σ的计划值。
2.4 总结
在绝大部分应用中n≥30已经够大。如果总体服从或者近似服从正态分布,可以利用更小的样本容量。
对于σ未知,如果总体的分布严重偏斜或者包含异常点,将样本容量增加到n≥50。
3.总体比率的区间估计
3.1总体比率的区间估计

3.2样本容量的确定
令E代表希望达到的边际误差

得到下面的结论
总体比率区间估计中的样本容量

可选择如下方法确定计划值p*
(1)用以前相同或类似样本的样本比率代替
(2)利用实验性研究,选取一个初始样本,以该样本的样本比率作为计划值
(3)使用判断或最优猜测作为计划值
(4)如果上述方法均不适用,则去计划值p*=0.5
关注我的公众号DataLion,了解更多数据分析知识。
网友评论