统计学6-抽样分布

作者: 赵阳_c149 | 来源:发表于2019-11-12 15:35 被阅读0次

定义

抽样分布也称统计量分布、随机变量函数分布，是指样本估计量的分布。样本估计量是样本的一个函数，在统计学中称作统计量，因此抽样分布也是指统计量的分布【1】。以样本平均数为例，它是总体平均数的一个估计量，如果按照相同的样本容量，相同的抽样方式，反复地抽取样本，每次可以计算一个平均数，所有可能样本的平均数所形成的分布，就是样本平均数的抽样分布。

也就是说，我们将抽样分布定义为样本统计量的分布。

有多种样本统计量：均值，方差，标准差。

抽样分布的一些特点

样本分布以初始参数值为中心。
根据样本容量大小，抽样分布降低了方差。具体说来，抽样分布的方差等于初始数据的方差除以样本容量。这也同样适用于样本平均数方差！

如果说我们有随机变量X，和方差 σ²，那么 $\bar{X}$ 的分布 (样本平均数的抽样分布) 方差为: σ² /n

抽样分布常用符号

我们经常使用希腊符号作为参数，使用小写字母作为对应统计量。有时候在文学作品中，你也会看到带有 "帽子" 的希腊字母，表示这是对应参数的估算。

下面这个表格提供了一些最常见的参数和对应统计量：

param_stat.png

抽样分布涉及的两个重要数学定理

大数法则

大数法则表示随着样本容量增加，样本平均数越来越接近总体平均数。

但是我们首先如何确定样本平均数可以估计总体平均数呢？我们以后如何识别参数与统计量的其他关系呢？

下面是三种最常见的估计技巧：

最大似然估计

似然性
“似然性”和“概率”意思接近。都是指某种事件发生的可能性。但是二者又有明确的区分：概率，用于在已知一些参数的情况下，预测接下来在观测上所得的结果；似然性，则是用于在已知某些观测所得的结果时，对有关事物之性质的参数进行估值。
可以将“概率”和“似然性”理解为互为可逆的过程。“概率”是由因到果，而“似然性”是由果求因。
似然函数
似然函数是一种关于统计模型中的参数的函数，表示模型函数中的似然性。【2】
在已知某个参数B时，事件A会发生的概率为：P(A|B) = P(A,B) / P(B)
由贝叶斯法则【3】：
P(B|A) = (P(A|B) * P(B)) / P(A)
因此，我们可以反过来构造表示似然性的方法：已知有事件A发生，运用似然函数L(B|A)，我们估计参数B的可能性。形式上，似然函数也是一种条件概率函数，但我们关注的变量改变了：
b-> P(A|B=b)
例子
考虑投掷一枚硬币的实验。首先假设我们用的是“公平的硬币”，即正面朝上和反面朝上的概率都为0.5。
此时，投两次都是正面朝上的概率为0.25，用条件概率表示：
P(HH | p_H = 0.5) = 0.25
其中H指正面朝上。
如果一个硬币的质量分布不够均匀, 那么它可能是一枚"非公平的硬币"
统计学中，我们关心的是在已知一系列投掷的结果时，关于硬币投掷时正面朝上的可能性的信息。
我们可以建立一个统计模型：假设硬币投出时会有p_H的概率正面朝上，而有1-p_H 的概率反面朝上。
这时，通过观察已发生的两次投掷，条件概率可以改写成似然函数：
L(p_H | HH) = P(HH | p_H = 0.5) = 0.25
也就是说，对于取定的似然函数，在观测到两次投掷都是正面朝上时，p_H = 0.5的似然性是0.25。
如果考虑p_H = 0.6，那么似然函数的值也会改变。
L(p_H | HH) = P(HH | p_H = 0.6) = 0.36
注意到似然函数的值变大了。
这说明，如果参数p_H = 0.5的取值变成0.6的话，结果观测到连续两次正面朝上的概率要比假设p_H = 0.5时更大。也就是说，参数p_H取成0.6要比取成0.5更有说服力，更为“合理”。
总之，似然函数的重要性不是它的具体取值，而是当参数变化时函数到底变小还是变大。
对同一个似然函数，其所代表的模型中，某项参数值具有多种可能，但如果存在一个参数值，使得它的函数值达到最大的话，那么这个值就是该项参数最为“合理”的参数值。
在这个例子中，如圖1所示，似然函数实际上等于：
L(θ | HH) = P(HH | p_H = θ) = θ²
如果取p_H = 1，那么似然函数达到最大值1。也就是说，当连续观测到两次正面朝上时，假设硬币投掷时正面朝上的概率为1是最合理的。

最大似然估计

最大似然估计（英語：maximum likelihood estimation，缩写为MLE），也称极大似然估计、最大概似估计，是用来估计一个概率模型的参数的一种方法【4】。

上文已经提到，似然函数取得最大值表示相应的参数能够使得统计模型最为合理。

最大似然估计的做法是：首先选取似然函数（一般是概率密度函数)或概率质量函数），整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数，这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一，也不一定存在。与矩法估计比较，最大似然估计的精确度较高，信息损失较少，但计算量较大。

距估计（Method of Moments）

距（Moments）
数学中矩的概念来自于物理学。在物理学中，矩是用来表示物体形状的物理量。定义在实数域上的实函数相对于值c的n阶矩为:
μ_n = ∫(x-c)ⁿƒ(x)dx。
如果ƒ(x)是概率密度函数，则容易看出相对于值0的1阶距是连续随机变量的数学期望。
随机变量的方差可以定义为其2阶中心距：Var(x) = ∫[(x-E(x))]²ƒ(x)dx
随机变量的偏态可以定义为其3阶中心距:S(x) = ∫[(x-E(x))]³ƒ(x)dx
随机变量的峰态可以定义为其4阶中心距:K(x) = ∫[(x-E(x))]⁴ƒ(x)dx
总体距（theoretical moments）
真实分布的k阶距。【6】
样本距（sample moments）
根据样本计算出的k阶距。
矩估计
英語：method of moments，是估计总体参数的方法。首先推导涉及感兴趣的参数的总体矩（即所考虑的随机变量的幂的期望值）的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代（未知的）总体矩，解出感兴趣的参数。从而得到那些参数的估计。矩估计是英国统计学家卡尔·皮尔逊【5】于1894年提出的。
方法
假设问题是要估计表征随机变量W的分布ƒ_W(ω;θ)的k
个未知参数θ₁，θ₂，...θ_k。如果真实分布（"总体矩"）的前k阶矩可以表示成这些θ的函数:
μ₁ ≡ E[W] = g₁(θ₁，θ₂，...θ_k)
μ₂ ≡ E[W²] = g₂(θ₁，θ₂，...θ_k)
...
μ_k ≡ E[W^k] = g_k(θ₁，θ₂，...θ_k)
设取出一大小为n的样本，得到θ₁，θ₂，...θ_k。对于j = 1，2，... k，令：
$\hat{μ}$ _j = 1/n * ∑ω_i^j
为j阶样本矩，是μ_j的估计。θ₁，θ₂，...θ_k的距估计量记为 $\hat{θ}$ ₁， $\hat{θ}$ ₂，... $\hat{θ}$ _k，由这些方程的解（如果存在）定义：
$\hat{μ}$ ₁ = g₁( $\hat{θ}$ ₁， $\hat{θ}$ ₂，... $\hat{θ}$ _k)
$\hat{μ}$ ₂ = g₂( $\hat{θ}$ ₁， $\hat{θ}$ ₂，... $\hat{θ}$ _k)
...
$\hat{μ}$ _k = g_k( $\hat{θ}$ ₁， $\hat{θ}$ ₂，... $\hat{θ}$ _k)

贝叶斯估计

贝叶斯估计（Bayesian estimation）是利用贝叶斯定理【7】结合新的证据及以前的先验概率，来得到新的概率。它提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

贝叶斯估计将后验概率（考虑相关证据或数据后，某一事件的条件机率）推导为先验概率（考虑相关证据或数据前，某一事件不确定性的机率）及似然函数的共同作用结果。贝叶斯推断根据贝叶斯定理计算后验概率：

B_F.png
其中，

| 表示将某事件成立作为条件。
H表示假说，其机率可能会受实验数据（以下会称为证据）影响。一般来说会有许多互相矛盾的假说，任务是要确认哪一个假说可能性最高。
E表示证据。证据对应新的数据，也就是还没用来计算先验概率的数据。
P(H)，先验概率，是观察到数据E（目前证据）之前，假说H的机率。
P(H|E)，后验概率，是在给定证据E之后，假说H的机率，是希望求得的资讯，也就是在有目前证据时，假说H的机率。
P(E|H)是假定H成立时，观察到E的机率。在H不变时，这是E的函数，也是似然函数，指出在给定假设下假说和证据的相容程度。似然函数是证据E的函数，而后验概率是假说H的函数。
P(E)有时会称为边缘似然率。此系数对所有可能的假说都是定值，因此在判断不同假说的相对机率时，不会用到这个系数中。

针对不同的H数值，只有P(H)和P(E|H)（都在分子）会影响P(H|E)的数值。假说的后验概率和其先验概率（固有似然率）和新产生的似然率（假说和新得到证据的相容性）乘积成正比。

贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率，来得到新的机率（这和频率论推论相反，频率论推论只考虑证据，不考虑先验机率）。

而且贝叶斯估计可以迭代使用：在观察一些证据后得到的后设机率可以当作新的先验机率，再根据新的证据得到新的后设机率。因此贝斯定理可以应用在许多不同的证据上，不论这些证据是一起出现或是不同时出现都可以，这个程序称为贝叶斯更新（Bayesian updating）。

中心极限定理

中心极限定理表示样本容量足够大，平均数的抽样分布越接近正态分布。
中心极限定理实际上应用于这些常见的统计量中：

样本平均数 ( $\bar{x}$ )
样本比例 (p)
样本平均数的差异 ( $\bar{x}_1$ - $\bar{x}_2$ )
样本比例的差异 ( $p_1$ - $p_2$ )

推论统计

推论统计在于使用我们收集的数据（样本）对更大的总体数据（总体）得出结论。

使用推论统计要求我们对准确代表感兴趣的总体进行取样。

收集数据的常见方式是调查。然而，根据提问的问题和提问的方式，调查会带有偏见性。这是解决项目时你应该想到的话题。

推论统计涉及的术语

总体
我们想要研究的整个群体。
参数
描述总体的数值摘要
样本
总体的子集
统计量
描述样本的数值摘要
推论
根据统计量得出关于参数的结论称为推论。

自助法 (bootstrap)

简介

Bootstrap方法是非常有用的一种统计学上的估计方法，是斯坦福统计系的教授Bradley Efron【9】在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法。【8】
Bootstrap是可进行统计量区间估计的统计方法，也称为自助法。

Why Bootstrap

我们往往无法知道总体的参数，因此我们通过抽样来试图对总体的参数进行估计。为此，一种方法是不停的对总体不停的取样，来得出样本统计量的分布。但是，这显然是不可能的。还有两种方法能派上用场：

对总体分布的形状作出假设。正态，贝努力，等等。
充分利用样本信息。

对于#1，如果你能确定假设成立，即整体服从某一种分布，那么只要计算量在可接受的范围内，就没有问题。比方说，总体服从正态分布，那么样本来自总体，也能以正态分布进行描述，抽样分布为正态分布。然而，当总体分布未知的时候，只能以Bootstrap方法进行分析。

我们有理由采用#2，因为样本是我们仅有的也是最好的关于总体的信息，而且，大多数随机抽取的样本同总体非常的相似。【10】

实例

Bootstrap是放回抽样。这里以一个🌰来描述其基本过程：

假设我们有两个金融资产X和Y，我们现在想要合理配置这两个资产，使得其资产组合的风险最小。也就是找到一个α，使得Var(αX + (1-α) Y)最小。这个问题几十年前马尔可维茨已经在其投资组合理论里给出了解答，最优的α表达式如下：

bt_1.jpg
但是现实生活中实际上我们并不知道²,²以及σ_XY的值，故而只能通过X和Y的一系列样本对其进行估计。并用估计值²,²以及_XY代替²,²以及σ_XY的值插入公式：

b_t_2.jpg
所以我们唯一的任务就是合理地估计²,²以及_XY，传统方法中我们一般会考虑直接使用样本方差（sample variance）去估计²,²以及σ_XY的值，然而自从有了Bootstrap之后，我们有了另一种方法与途径，可以更好地去做估计总体的分布特性，即不仅可以估计α，还可以估计α**的方差、中位数等值。

步骤

在原有的样本中通过重抽样抽取一定数量（比如100）的新样本，重抽样（Re-sample）的意思就是有放回的抽取，即一个数据有可以被重复抽取超过一次。
基于产生的新样本，计算我们需要估计的统计量。
在这例子中，我们需要估计的统计量是α，那么我们就需要基于新样本的计算样本方差、协方差的值作为 $σ_X$ ², $σ_Y$ ²以及σ_XY，然后通过上面公式算出一个 $\hatα$ 。
重复上述步骤n次（一般是n>1000次）。
在这个例子中，通过n次（假设n=1000），我们就可以得到1000个α_i。也就是α₁，α₂，...，α₁₀₀₀。
最后，我们可以计算被估计量的均值和方差：

b_t_3.jpg

b_t_4.png

我们发现，通过Bootstrap方法我们竟然不仅可以估计α的值（这点普通方法也可以很容易做到），还可以估计α的accuracy也就是其Standard Error。这可是只利用原有的样本进行一次估计所做不到的。那么Bootstrap对于分布特性的估计效果究竟如何呢？请看下图：

b_t_5.png

左边是真实的α分步，右边则是基于bootstrap方法得到的1000个α的分布，可以看到，二者是比较相近的，也就是说Bootstrap有着不错的估计效果。而且当重复次数增多，Bootstrap的估计效果会更好。
不仅是α的标准差，如果我们想要估计α的中位数、分位数等统计量，也是可以通过Boostrap方法做到的，其整个流程可以用下面一张图诠释：

b_t_6.png

本质上，Bootstrap方法，是将一次的估计过程，重复上千次上万次，从而便得到了得到上千个甚至上万个的估计值，于是利用这不止一个的估计值，我们就可以估计α均值以外的其他统计量：比如标准差、中位数等。

Python的random.choice方法

在 python 中使用 random.choice 实际上是自助法。无论选择多少次，我们数据集中任何数字的概率保持不变。

【1】抽样分布
【2】似然函数
【3】贝叶斯法则
【4】最大似然估计
【5】卡尔·皮尔逊
【6】Method of Moments
【7】统计学5-贝叶斯法则 : 关于先验概率，后验概率，条件概率的概念及他们之间的关系，可以参考这篇文章。
【8】Bootstrap详解：本文的例子来自于这篇文章。
【9】布拉德利·埃弗龙
【10】https://stats.stackexchange.com/questions/26088/explaining-to-laypeople-why-bootstrapping-works

统计学6-抽样分布

定义

抽样分布的一些特点

抽样分布常用符号

抽样分布涉及的两个重要数学定理

大数法则

最大似然估计

最大似然估计

距估计（Method of Moments）

贝叶斯估计

中心极限定理

推论统计

推论统计涉及的术语

自助法 (bootstrap)

简介

Why Bootstrap

实例

步骤

Python的random.choice方法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

人工智能/模式识别/机器学习精华专题

机器学习和人工智能入门