总体参数

想象一下，我们计算了5个不同肝细胞中基因X mRNA转录本的数量。

image-20201218100416578.png

如果我们有足够的时间和金钱，我们可以数出每个肝细胞中基因X的mRNA转录本的数量。但是，为了这个例子，你只能想象2400亿个绿点在这条线上代表一个人肝脏中的2400亿个细胞，因为我没有时间把它们都画出来。

image-20201218100720335.png

现在，我们可以利用测量结果画一个直方图。我们可以使用直方图去计算概率和统计。例如，如果我们想知道观一个带有30个或更多基因X mRNA转录本的肝细胞的概率。然后我们就可以计算出有多少肝细胞有30个或更多的基因X的mRNA转录本，然后除以肝细胞的总数。

image-20201218101551196.png

就像直方图一样，我们可以使用分布来计算概率和统计。例如，如果我们想知道观一个带有30个或更多基因X mRNA转录本的肝细胞的概率。然后我们将计算曲线下所有等于或大于30的值的面积，然后除以曲线下的总面积。

image-20201218102300555.png

因为这个柱状图代表了每一个肝细胞，或者一个特定链条上的所有杂货店，统计学家会说它代表了总体。因此，代表总体的正态曲线的均值(mean)和标准差(standard deviation)称为总体参数(population parameters)。我们称均值为总体均值(population mean)。…我们称标准差为总体标准差(population standard deviation)或简称为Population SD。

image-20201218103313120.png

我们可以拟合一个指数分布(Exponential Distribution)到数据。指数分布的形状是由rate决定的，在这种情况下，rate等于0.1，即使指数分布看起来不同于正态分布，它仍然代表肝细胞的数量，使rate称为population rate。我们可以用指数分布来计算概率和统计就像我们用正态分布一样。

image-20201218104415079.png

如果直方图的形状和下图一样，我们可以拟合一个Gamma分布到数据。Gamma分布的形状被Shape和rate这两个参数决定的。Shape和rate是总体参数(population parameters)

image-20201218111328296.png

我们现在回到正态分布，我们几乎总是用相对较小的样本来估计总体参数。在这个例子中，我们只测量了2400亿个细胞中的5个，我们将使用5个测量结果去估计总体参数。我们想知道总体参数的原因是为了确保从我们的实验中得到的结果是可重复的。我可以告诉你，总体均值是17.6，总体标准差是10.1。这离真正的总体参数的值还很远，但随着，测量结果的增加，我们估计的总体参数会更准确。统计学的主要目标之一是量化我们对总体估计的信心有多大。具体来说，统计学家经常计算p值(p-values)和置信区间(confidence intervals)来量化估计参数的信心。就像我们刚才看到的，一般来说，数据越多，我们对估计就越有信心。两组重复性实验p值，或者置信区间，将告诉我们，虽然估计值不同，但它们并没有显著差异。意味着实验是可重复的

image-20201218113832117.png