先验知识

当我们开始讨论总体参数时, 是假设已经理解了下述两个重要概念.

直方图
正态分布(Bell/Normal Distribution)

总体

我们想要知道某App上登录时间在15-16点的用户占比的分布. 现在我们有了这个总体人群14亿. 而分布Figure1所示.

import matplotlib.pyplot as plt
plt(login_range1, bins=30)
plt.show()

plt.mean() #0.18
plt.std() #0.08

login_range1.sample(5).mean().round(2) #0.169
login_range1.sample(5).std().round(2) #0.032

login_range1.sample(80).mean().round(2) #0.20
login_range1.sample(80).std().round(2) #0.095

login_range1.sample(320).mean().round(2) # 0.181
login_range1.sample(320).std().round(2) #0.079

login_range1.sample(1280).mean().round(2) #0.181
login_range1.sample(1280).std().round(2) #0.076

Figure1_某App上登录时间段在15-16点的用户占比

总体参数与样本参数

样本性质	观测数量	均值	标准差
总体	14亿	$\mu = 0.180$	$\sigma=0.08$
样本1	5个	$\bar {x} = 0.169$	$\hat{\sigma}=0.032$
样本2	80个	$\bar {x} = 0.20$	$\hat{\sigma}=0.095$
样本3	320个	$\bar{x} = 0.181$	$\hat{\sigma}=0.079$
$\dots$	$\dots$	$\dots$	$\dots$
样本N	1280个	$\bar{x} = 0.181$	$\hat{\sigma}=0.076$

$\mu$ 总体均值
$\sigma$ 总体标准差
$\bar{x}$ 样本均值
$\hat{\sigma}$ 样本标准差

当样本数量足够多时, 样本均值越来越接近总体均值. 由于总体无法获得, 我们往往通过样本均值, 样本方差估计总体均值, 总体方差. 我们每次抽样的样本可能代表总体, 然而观察发现, N次抽样都得到不同的估计参数, 且与总体参数总是有差别. 那么抽样样本的估计值如何能保证是合理的总体估计呢? 统计学家通过引入 $p\_value$ 和 置信区间 来量化对总体估计的信心(confidence也可理解为确信度).

一般来说, 抽样样本越多, 我们对估计参数的准确度越有信心. 以样本1和样本2的两次抽样观测值来看. 我们虽然得到了两次不同的估计值, 但通过 $p\_value$ 的大小, 我们可认为这两次估计值没有显著的不同(无显著差异). 即: 样本1的估计结果不应该与样本2的估计结果显著不同.