美文网首页
统计基础2-总体参数(Population Parameters

统计基础2-总体参数(Population Parameters

作者: 百分号 | 来源:发表于2019-12-25 20:36 被阅读0次

先验知识

当我们开始讨论总体参数时, 是假设已经理解了下述两个重要概念.

  • 直方图
  • 正态分布(Bell/Normal Distribution)

总体

我们想要知道某App上登录时间在15-16点的用户占比的分布. 现在我们有了这个总体人群14亿. 而分布Figure1所示.

import matplotlib.pyplot as plt
plt(login_range1, bins=30)
plt.show()

plt.mean() #0.18
plt.std() #0.08

login_range1.sample(5).mean().round(2) #0.169
login_range1.sample(5).std().round(2) #0.032

login_range1.sample(80).mean().round(2) #0.20
login_range1.sample(80).std().round(2) #0.095

login_range1.sample(320).mean().round(2) # 0.181
login_range1.sample(320).std().round(2) #0.079

login_range1.sample(1280).mean().round(2) #0.181
login_range1.sample(1280).std().round(2) #0.076
Figure1_某App上登录时间段在15-16点的用户占比

总体参数与样本参数

样本性质 观测数量 均值 标准差
总体 14亿 \mu = 0.180 \sigma=0.08
样本1 5个 \bar {x} = 0.169 \hat{\sigma}=0.032
样本2 80个 \bar {x} = 0.20 \hat{\sigma}=0.095
样本3 320个 \bar{x} = 0.181 \hat{\sigma}=0.079
\dots \dots \dots \dots
样本N 1280个 \bar{x} = 0.181 \hat{\sigma}=0.076
  • \mu 总体均值
  • \sigma 总体标准差
  • \bar{x} 样本均值
  • \hat{\sigma} 样本标准差

当样本数量足够多时, 样本均值越来越接近总体均值. 由于总体无法获得, 我们往往通过样本均值, 样本方差估计总体均值, 总体方差. 我们每次抽样的样本可能代表总体, 然而观察发现, N次抽样都得到不同的估计参数, 且与总体参数总是有差别. 那么抽样样本的估计值如何能保证是合理的总体估计呢? 统计学家通过引入 p\_value置信区间 来量化对总体估计的信心(confidence也可理解为确信度).

一般来说, 抽样样本越多, 我们对估计参数的准确度越有信心. 以样本1样本2的两次抽样观测值来看. 我们虽然得到了两次不同的估计值, 但通过p\_value的大小, 我们可认为这两次估计值没有显著的不同(无显著差异). 即: 样本1的估计结果不应该与样本2的估计结果显著不同.

总结

总的来说, 由于我们总是无法得到总体, 因此尝试通过样本估计总体参数, 并量化估计值的确信度(p\_value和置信区间), 从而确保我们得到的结果可以被复现. 复现是说, 所有抽样来自同一总体, 因此多次抽样得到的估计在将来总是会再次出现的.

相关文章

网友评论

      本文标题:统计基础2-总体参数(Population Parameters

      本文链接:https://www.haomeiwen.com/subject/euxhoctx.html