概述:
三个定义:
1.个体是收集数据的基本单位
2.总体是所有感兴趣的个体的集合
3.样本是总体的一个子集
选取样本是为了收集推断所需的数据,并且回答关于总体的研究问题。利用恰当的抽样方法,抽样结果可以给出关于总体特征的一个“好”的估计。
抽样
从有限总体的抽样
简单随机抽样:从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机抽样。
- 无放回抽样
- 有放回抽样
从无限总体的抽样
随机样本,需要满足的条件
抽取的每个个体来自同一总体
每个个体的抽取是独立的
点估计
点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法
为了估计总体参数,计算相应的样本特征-样本统计量
样本均值𝑥 ̅为总体均值𝜇的点估计量
抽样分布
总体服从正态分布:任何样本容量下x ̅的抽样分布都是正态分布
总体不服从正态分布:中心极限定理-从总体中抽取容量为n的简单随机抽样,当样本容量很大时,样本均值x ̅的抽样分布近似服从正态分布
应用角度:一般性而言,样本容量大于等于30时, x ̅的抽样本部可用正态分布近似。当总体是严重偏态或者出现异常点时,样本容量可能需要达到50
实际应用:提供样本均值x ̅和总体均值的值之间差异的概率信息
总体均值的区间估计:
image.png不同置信水平得到的置信区间,想要达到较高的置信水平,必须加大边际误差,即加大置信区间的宽度
应用中的建议:
如果总体服从正态分布,公式给出的置信区间是精确的
绝大部分情况下,样本容量n>=30已经足够。
标准正太分布表:https://wenku.baidu.com/view/cd811b103a3567ec102de2bd960590c69fc3d849.html
总体均值的区间估计:总体标准差未知的情形
- 利用同一样本估计𝜇和𝜎两个未知参数。当利用s估计𝜎时,边际误差和总体均值的区间估计都已t分布的概率分布为依据进行的。
- t分布是由一类相似的概率分布组成的分布族,某个特定的t分布依赖于成为自由度的参数。随着自由度的增大,t分布与标准正太分布之间的差异越来越小
- 给t加上下表以表明其在t分布上侧的面积。z_0.025 表示在t分布该值上侧的面积为0.025.一般地,用记号t_(𝑎/2)
- t分布查表计算http://www.360doc.com/content/12/0307/17/7598058_192529468.shtml
边际误差和区间估计:
image.png - s是样本标准差,区别于之前均值的标准差𝜎
网友评论