美文网首页
统计基础04:总体参数与样本估计总体参数

统计基础04:总体参数与样本估计总体参数

作者: 珠江肿瘤 | 来源:发表于2020-08-03 12:50 被阅读0次

总体包含所有样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常随机使用总体中的部分样本进行总体参数估计。

1.总体参数描述总体。

引言:假设我们要记录肝脏所有细胞中gene X的mRNA转录本情况,假设我们有足够的时间和金钱,那么我们就可以将所有肝细胞中gene X的mRNA转录本情况检测并绘制如下(假设这里有2400亿个细胞的数据)并将其转换成直方图和分布的形式:

「总体参数:直方图中的数据包含了肝脏中所有肝细胞的数据,故直方图代表了一个总体(population)」。总体对应的均数(Mean)则为「总体均数(Population Mean)」、对应的标准差(Standard Deviation,SD)则为「总体标准差(Population SD)」

除以上讨论正态分布中的参数外,在「其他分布中(如指数分布、gamma分布)也存在对应的总体参数,在后续学习中将一一补充」

  • 直方图和分布均向我们展示:

  • ①由肝脏所有肝细胞数据组成的直方图和分布构成正态分布,该分布的均值=20,标准差=10。标准差展示的是所有数据是如何围绕着均值分布的,标准差越大,则数据围绕均值分布越分散,反之则越集中。

  • ②10-30 mRNA转录本的数据最多,而低于10或者高于30的数据较少。

  • 我们可以使用直方图或分布来计算概率和统计指标,二者的结果等同。例如分别同直方图和分布计算出mRNA转录本≥30的概率均为0.16。

  • 直方图求概率:转录本≥30的肝细胞数量除以总肝细胞数量
  • 分布求概率:转录本≥30曲线下面积除以总的曲线下面积。

2 为什么要用样本估计总体?

肝细胞中约有2400亿个肝细胞,我们几乎不可能测量总体中的所有个体,故我们仅能随机选择一些样本进行检测,利用少量样本对总体进行估计。如我们随机选取2400亿个肝细胞中的5个进行测量,以此估计总体参数,然后以此为基础对其他结果进行推断。

「估计总体参数的原因:确保我们从实验中获得的结果是可重复性的。」 换句话说,从相同的总体中进行抽样检测,第一次获得的结果与第二次、第三次、第n次获得的结果是没有统计学差异的。如果将这5个测量结果作为训练数据集放在机器学习的情景中,那么它将非常有用,因为以此5个数据估计的总体曲线就是机器学习方法预测的目标。

  • 每一次的不同估计值如何向我们展现一个可以重复的结果(reproducible results)?
为了回答这个问题,我们从仅含2个数据的试验开始,估计的总体均值(estimated population mean)=11;估计的总体标准差(estimates population standard deviation)=11.3。与总体均值比较,估计的总体均值偏离较多;与总体标准差进行比较,估计的标准差与总体标准差较接近。 接着我们随机测量总体中的3个数据,估计的总体均值(estimated population mean)=15.3;估计的总体标准差(estimates population standard deviation)=11。 接着我们随机测量总体中的5个数据,估计的总体均值(estimated population mean)=17.6;估计的总体标准差(estimates population standard deviation)=10.1。

随着样本的增多,我们估计的总体均值和总体标准差更加准确,也就是说我们有更大的信心(confidence)估计正确。

「统计学中一个重要的目标是,量化我们估计总体的可信度(confidence)。」 具体而言,可以通过p值(p value)和置信区间(confidence intervals)量化估计总体参数的可信度(confidence)。通过上面的讨论,总体而言,样本数据越多,估计总体的可信度越高。更加通俗的说,纳入的样本越多,我们越有信心认为我们估计总体的结论是正确的。

「即使2次试验估计的总体均数和总体标准差不同,我们可以使用p值或者置信区间的方法来量化该结论的可信度」。通过统计学方法,我们可以得出新的结论,尽管两次取样的结果表面上不相同,但他们的差异不具有统计学显著性。这就意味着,我们可以得出重复的结果。

3.样本如何估计总体参数?

例,基于5个随机样本对以上总体进行估计。从总体中选取5个肝细胞进行检测gene X的转录本情况。

  • 第一,因为我们仅有估计的总体均值(样本均值估计总体均值),故这里用样本均值(x-bar)代替总体均值。
  • 第二,因为样本的方差倾向于低于总体方差,除数为n可能会低估总体方差。故除数是(样本数量-1,n-1)而不是样本数量n,以代偿样本均值代替总体均值引起的变化。

样本估计总体均值、标准差和方差的意义何在:随着样本数量的逐渐增加,估计的总体参数更加准确、估计参数的置信度更高。但是仅仅5个样本便可以较好的估计总体参数,可以为我们节省了大量的劳力和财力。

4.小结

总体包含所有研究样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常使用总体中的部分样本进行总体参数估计。通过估计总体参数和量化可信度,便可以在将来的试验中产生可以重复的结果、推测将来试验的结果。

  • 从一个研究整体中获取少部分样本,使用相同的公式估计总体参数,但需要除数(n-1)代替n以补偿样本均值代替总体均值带来的偏差。为什么估计总体标准差时需要除以(n-1),将会在接下来的章节谈及。

参考视频:

  1. https://www.youtube.com/watch?v=vikkiwjQqfU

  2. https://www.youtube.com/watch?v=SzZ6GpcfoQY

相关文章

  • 统计基础04:总体参数与样本估计总体参数

    总体包含所有样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常随机使...

  • 统计学第四课:参数估计

    参数估计是在样本统计量概率分布的基础上,根据样本信息,推断总体参数。总体参数用θ表示,用于估计参数的统计量用θ上加...

  • Statistics基本定理

    概念: 总体均值 总体方差 样本均值 样本方差 无偏估计:用样本统计估计总体参数时,估计量的均值(数学期望)与未知...

  • 参数估计

    参数估计就是用样本统计量去估计总体的参数,用来估计总体参数的统计量称为估计量,根据一个具体样本计算出来的估计量的数...

  • 统计学(36)-参数估计

    与样本有关的指标称为统计量,与总体有关的指标称为参数参数估计:统计学一个很重要的内容就是根据样本信息来估计总体信息...

  • 推断统计-假设检验

    推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含参数估计和假设检验。参数估计即利用样本信息推断总体特征...

  • 5.1 参数估计的概念及两种估计方法

    1. 什么是参数估计 参数估计是在样本统计量概率分布的基础上,利用样本的信息推断所关心的总体参数的过程。 ① 基于...

  • 第五章---简单统计推断:总体参数的估计

    统计推断从数据得到关于总体参数的一些结论的过程叫做统计推断 5.1用估计量估计总体参数 统计量样本的(不包含未知总...

  • 【数学建模算法】(30)数据的统计描述和分析(下)

    2.参数估计 利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是,估计有关的参数,如。参...

  • 假设检验

    参数估计和假设检验是统计推断的2个组成部分,它们从不同角度利用样本对总体进行推断。在参数估计中,总体参数是未知的,...

网友评论

      本文标题:统计基础04:总体参数与样本估计总体参数

      本文链接:https://www.haomeiwen.com/subject/mqdqrktx.html