美文网首页
期望与方差之一:你们究竟是什么!?

期望与方差之一:你们究竟是什么!?

作者: 艾辛图 | 来源:发表于2020-09-21 18:32 被阅读0次

期望值(Expectation)和方差(Variance)是统计学入门绕不过去的两个指标。许多教科书一上来就用上各种符号和公式,让一些基础不好的同学摸不着头脑。本文试图用最直接的例子给各位解释一下这两个概念。

比如,现在有一个数组:

0, 1, 1, 2, 2, 2, 3, 3, 3, 3

若要求这个数组的平均数,则有:

\frac{0+1+1+2+2+2+3+3+3+3}{10} =2

这种计算办法,我们叫作算术平均数(Arithmetic Mean)。

让我们重新观察一下这个数组。我们发现,里面的元素(element)有自己各自的出现次数。比如0出现了1次,2出现了3次等。这些出现次数,我们称之为频数(Frequency)。本数组的频数总结如下表:

频数表

于是,上面算术平均数,也可以写成加权平均数(Weighted Mean)形式:

\frac{0\times 1+1\times 2+2\times 3 + 3\times 4}{10} = 2

不知道各位小时候有没有这个困惑。我记得我是在小学六年级左右学习加权平均数的,但是加权平均数与算术平均数不就是算出同一个结果吗?为什么要多发明出一个玩意来增加负担呢?这个问题直到我大一的时候学习了期望值才得以解决。原来只要稍微变换一下上式,即可得:

0\times \frac{1}{10} + 1\times \frac{2}{10} +2\times \frac{3}{10} + 3\times \frac{4}{10} = 2

这时,原数组的平均数被写成其四个元素0,1,2,3分别乘以各自概率(Probability)再求和的形式。这种写法,也就是所谓期望(也称数学期望)的定义。期望值通常用希腊字母\mu 或者概率函数形式E(X)表示:

\mu = E(X) = \sum_{i=1}^n x_{i}p(x_{i})

这里有必要解释一下概率这个词。这个词是属于那种日常对话经常用到,但是要解释起来好像说不透的一个词。实际上,所谓概率就是占比(Portion)。比如一个班有32人,其中男生12人,女生20人,那么男生的概率(或占比)就是12/32 = 0.375,女生的概率(或占比)就是20/32 = 0.625 。因此,有时理解不透的话,不妨用占比甚至百分比来理解概率,会更容易一点。

因此,上面数组的期望值可以拆分成下面表格理解:

原数组的期望值

通过上面几种形式,不论数组均值用哪种方法计算,最后的结果还是2 。因此,期望值实质就是这个数组的总体均值。这里需要注意的是“总体”一词。总体(Population)是一个统计学术语,指的是这个研究内容的所有对象。与它相对应的词是样本(Sample),也就是这个研究内容的部分对象。

如果说期望值描述的是一组数据的总体趋势(Central Tendency),那么方差(Variance)则是描述这个组数据的离散程度(Dispersion)。所谓的离散程度,指的是各个数值与均值距离形成的一个度量,其计算公式为:

\sigma ^2 = Var(X) = E((X-\mu )^2)

其中,希腊字母\sigma^2 为方差,希腊字母\sigma  (读sigma)为标准差(本节先不讨论),Var(X)是计算总体X的方差函数。乍一看,这个公式很复杂,我们先用一个最简单的数组为例。比如一组数据只有1,2,3,4四个数字。那么容易得到这四个数字的均值为2.5,写成期望值有:

\mu =E(X) = 2.5

而方差,实际就是每一个元素与均值的差的平方求和,再取均值,即:

Var(X) = \frac{(x_{1}-\mu )^2+(x_{2}-\mu )^2+(x_{3}-\mu )^2+(x_{4}-\mu )^2}{4}

=\frac{(1-2.5)^2+(2-2.5)^2+(3-2.5)^2+( 4-2.5)^2}{4} = 0.8

这组数据之所以说是“简单的”,是因为每一个元素只出现了一次,因此其出现概率均为1/4,频数不明显。但是对于本文第一个数组,每个元素的频数是不一样的,因此,其方差从展开到一般,有:

Var(X) = \frac{(0 - 2)^2 + (1 - 2)^2 + (1 - 2)^2 +....+(3 - 2)^2 +(3 - 2)^2}{10}

因为,四个元素的频数不一样,所以上式进一步写成加权平均形式:

Var(X) = \frac{(1)(0 - 2)^2 + (2) (1 - 2)^2 + (3)(2 - 2)^2 + ( 4)(3 - 2)^2}{10} = 1

这个式子,也可拆分“元素乘以概率”的形式:

Var(X) = (0 - 2)^2\times \frac{1}{10}  + (1 - 2)^2\times \frac{2}{10} + (2 - 2)^2\times \frac{3}{10} + (3 - 2)^2\times \frac{4}{10} = 1

如果把每一项(x_{i} - 2)^2 看成一个新的数组元素a_{i} 的话,那么方差则可以写成下面等价的期望值形式:

E(A) = \sum_{i=1}^4 a_{i}p(a_{i}) = \sum_{i=1}^4 (x_{i} - \mu)p((x_{i}) = E((X - \mu)^2)

最后提醒一下,E(X)Var(X)的x用大写,因为它表示的是这个数据总体,而求和展开式的x则用小写,因为它们代表数据里面的每一个元素。

相关文章

网友评论

      本文标题:期望与方差之一:你们究竟是什么!?

      本文链接:https://www.haomeiwen.com/subject/egmvyktx.html