先验知识
当我们开始讨论总体参数时, 是假设已经理解了下述两个重要概念.
- 直方图
- 正态分布(Bell/Normal Distribution)
总体
我们想要知道某App上登录时间在15-16点的用户占比的分布. 现在我们有了这个总体人群14亿. 而分布Figure1所示.
import matplotlib.pyplot as plt
plt(login_range1, bins=30)
plt.show()
plt.mean() #0.18
plt.std() #0.08
login_range1.sample(5).mean().round(2) #0.169
login_range1.sample(5).std().round(2) #0.032
login_range1.sample(80).mean().round(2) #0.20
login_range1.sample(80).std().round(2) #0.095
login_range1.sample(320).mean().round(2) # 0.181
login_range1.sample(320).std().round(2) #0.079
login_range1.sample(1280).mean().round(2) #0.181
login_range1.sample(1280).std().round(2) #0.076

总体参数与样本参数
样本性质 | 观测数量 | 均值 | 标准差 |
---|---|---|---|
总体 | 14亿 | ||
样本1 | 5个 | ||
样本2 | 80个 | ||
样本3 | 320个 | ||
样本N | 1280个 |
-
总体均值
-
总体标准差
-
样本均值
-
样本标准差
当样本数量足够多时, 样本均值越来越接近总体均值. 由于总体无法获得, 我们往往通过样本均值, 样本方差估计总体均值, 总体方差. 我们每次抽样的样本可能代表总体, 然而观察发现, N次抽样都得到不同的估计参数, 且与总体参数总是有差别. 那么抽样样本的估计值如何能保证是合理的总体估计呢? 统计学家通过引入 和 置信区间 来量化对总体估计的信心(confidence也可理解为确信度).
一般来说, 抽样样本越多, 我们对估计参数的准确度越有信心. 以样本1
和样本2
的两次抽样观测值来看. 我们虽然得到了两次不同的估计值, 但通过的大小, 我们可认为这两次估计值没有显著的不同(无显著差异). 即:
样本1
的估计结果不应该与样本2
的估计结果显著不同.
总结
总的来说, 由于我们总是无法得到总体, 因此尝试通过样本估计总体参数, 并量化估计值的确信度(和置信区间), 从而确保我们得到的结果可以被复现. 复现是说, 所有抽样来自同一总体, 因此多次抽样得到的估计在将来总是会再次出现的.
网友评论