基本概念
统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于复杂和深奥,一个简单的把数据按照从高到低的顺序整理的过程也可以称为统计。
采用一定的工具如图表、图形和计算,对被观察对象的数据进行整理,得到诸如均值 Mean/ Expectation,方差 Variance,频数 Frequency,交叉表 Crosstabulation,直方图 Histogram,柱状图 Bar Chart 等形式,并借助这些整理的结果来对数据进行解读的统计学应用称为描述统计 Descriptive statistics。
在统计学中,被研究的对象的所有可能的结果的集合称为总体 Population,之所以采用这个词是因为正是人口普查 census 催生了现代统计学的很多研究结果,所以总体这个英文单词最常用的翻译是“人口”。
在实际应用中,想统计全部的人口或任何一个研究对象的总体都是不容易的,因此常常需要通过统计学知识利用从总体中抽取的样本数据中观测到的统计值来对总体数据的相应特征进行推断,这一统计学应用称为推理统计 Inferential statistics。在推理统计中,为了使得他人可以了解推断的质量和准确性,除了点对点的给出总体的某些描述统计特征(点估计 Point estimate)外,还会同时给出这些总体特征的可能的取值区间(区间估计 Interval estimate),实验者对于这个区间包含总体特征的置信程度 confidence level 等来进一步对结果进行说明。
由于被研究的对象的某些特征的取值很可能是事先难以确定的,因此是可以说取值是一些变量 variable,所以我们常用变量符号如 x,y 来表示,而为了便于定量的研究这些变量而严格限制每一个变量的结果都采用数值的形式加以表示时,这些变量在统计学的语境中就被命名为随机变量 Random variables。
描述统计简介
最基本的描述统计就是以表格的形式对数据进行整理归类,在分类的基础上进行频次统计、相对频率、频率百分比和其他描述统计指标的计算,在这个过程中还可以将统计的结果可视化,从而在杂乱无章的数据中找出隐含的信息,如数据的分布形态,集中程度等。
Frequency statistics with tabular form在进行频数统计时,从更有效的数据可视化的角度,对于类别型数据 Categorical data 和个别离散型数值数据 Quantitative data 可以通过柱状图 bar chart 来将数据分类,而对于大多数数值数据,尤其是连续型数值数据来说应该用直方图 Histogram 来进行统计。并且如果采用横轴做量值的分类,纵轴做频数统计的话,除非数据本身有空位,否则不应该为了区分不同类别而人为的改变横轴的度量比例,而是应该使用紧邻的直方图,并保留数据原有的分布形状,因为在很多情况下这些形状本身就蕴含着很多信息。关于在数据可视化中的图形选择原则,可以参考 Data Visualization: Rules for Encoding Values in Graph。
Histogram上述列表分析和可视化都是针对单个随机变量而言的,如果针对两个随机变量,则在归类时可以使用交叉表 Crosstabulation 来做汇总,并重点关注列表的交叉区域,以了解这两个变量之间的关联关系。这里需要注意的是,如果数据分析中涉及多个交叉列表,有时会需要将多个交叉列表合并成一个新的汇总性的交叉列表。此时,从这个汇总的交叉列表中寻求结论时需要注意 Simpson 悖论 问题,即需要注意是否有对结果解读有影响的因素在汇总时被忽略掉了。
Crosstabulation在可视化中,当两个变量的取值都是数值型数据时,可以通过散点图 Scatter plot 来将统计的结果可视化,从而一目了然的发现二者之间的关系:
Scatter plot and trendline而当这两个变量中有一个是类别数据时,则可以采用并列柱状图或累计柱状图来进行可视化:
Side by side bar chart Stacked bar chart随机变量取值位置情况的度量
在取得随机变量的多个不同的取值以后,在统计中每一个取值称为一个样本点,可以通过一些指标对于这些取值的位置特性进行一个度量,其中一个非常重要的指标就是均值。
均值 Average/ 期望 Expectation
均值这个指标是如此重要以至于它已经融入到我们的日常表达中,我们常说某个事情的平均水平是某个值,就代表如果从样本集中获取一个样本,可以预期其取值应该在平均水平附近,因此均值也被称为期望 Expectation。
为了区分总体和样本,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。
总体的均值为:
- μ = Σxi / N,其中 i = 1, ... , N
样本均值为:
- x̄ = Σxi / n,其中 i = 1, ... , n
下面这张图形象的描述了均值的“位置”描述能力,即均值取值的位置会随着样本集中不同的样本点的取值的变化而变化。
Every value from samples has their impacts on the location of Mean加权平均 Weighted average
在一般的均值计算中,可以认为对于各个样本点的权重都是相等的,即都等于 1/n,在一些情况下也需要给予不同的样本点不同的权重,这样的均值计算称为加权平均,其计算公式为:
- x̄ = Σwixi / Σwi,其中 wi 为第 i 次观察值的权重
下图这个多次以不同价格采购不同数量的产品,如果想要了解所有被采购产品的平均价格,就需要采用加权平均,其最终平均价格为:
- x̄ = (3 x 1200 + 3.4 x 500 + 2.8 x 2750 + 2.9 x 1000 + 3.25 x 800) / (1200 + 500 + 2750 + 1000 + 800) = 2.96
几何平均数 Geometric average
严格意义上讲,前面的均值计算应该称为算数平均数,还有一种均值的计算方式称为几何平均数,其计算公式为:
- x̄g = (x1x2... xn)1/n
其典型应用场合为对于变化速率的计算,如复利计算、年增长率计算等。例如如果一笔投资第一年利率为 0.06,第二年利率为 0.08,第三年利率为 0.10,那么这三年的平均利率应该为 0.0799,也即是说如果每年的利率是 0.0799,那么在期初投资同一笔钱,三年后两种模式下的收益是一样的。
中位数 Median
将样本集中的所有样本点按照从小到大的顺序排成一个数列后,位于这个数列中间位置的那个数称为中位数,当样本集中包含的样本的个数为偶数时,取中间两个值的平均值。在描述样本集的位置情况时,中位数相比均值不容易受到异常值 outlier 的影响。
众数 Mode
将样本点做频数统计后,频数最高的那个数就称为众数 Mode,这个数值反映了一种取值的倾向性,所以对应的在英文中用的是 Mode,这个英文单词比较令人熟知的翻译是“趋势”。
百分位数 Percentiles
百分位数提供了样本集中样本取值的相对位置信息,其正式的定义为:
The pth percentile is a value such that at least p percent of the observations are less than or equal to this value and at least (100 - p) percent of the observations are greater than or equal to this value.
四分位数 Quatiles
百分位数最常用的一个特例是将样本集的取值由 25%,50%,75% 百分位数分成 4 个部分,常用 Q1,Q2,Q3 来表示。
随机变量取值变动情况的度量
除了对随机变量取值的位置进行度量以外,我们还需要了解这些取值的变动或分布情况。
取值范围 Range
最简单的衡量取值变动程度的指标就是取值范围,也即最大值与最小值之差。
四分位差 Interquartile range
由于取值范围容易受到异常的极大和极小值的影响,因此对于数据的整体分布情况的度量能力有限,一个更进一步的度量方式是采用 IQR = Q3 - Q1,也即 75 百分位数与 25 百分位数之差来给出中间 50% 的数字的取值范围。
方差
与前几个分布指标相比,方差充分考虑到了数据集中每一个随机变量的取值与数据集的均值的偏差值 deviation ,并以此来计算数据分布情况。
同样地,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。
总体的方差计算公式为:
- σ2 = Σ(xi - μ)2 / N
样本的方差计算公式为:
- s2 = Σ(xi - x̄)2 / (n - 1)
样本方差的分母为 n - 1 是因为样本集的数据离散程度大概率上是小于总体的离散程度的,并且在现实应用中总体的数据是很难获得的,都是需要用样本的方差来近似总体的方差,此时就需要将样本的方差做一个校正,校正方式为将原方差公式中的 n 替换成 n - 1 将样本的方差做一个放大。
Sample variance computation标准差 Standard deviation
在计算样本集中每个样本的取值与均值的偏差时,由于对于任何数据集都有 Σ(xi - x̄) == 0,因此方差计算中采用的是偏差的平方和 Σ(xi - x̄)2。对于量值数据来说,方差的单位是原有随机变量量纲的平方,而将方差做开方后得到的值则和随机变量具有相同的量纲,这就使得通过这个统计值来和原有随机变量的取值进行比较成为了可能,这个开方的结果称为标准差。
变动系数 Coefficient of variation
由于标准差与随机变量的取值以及均值都具有相同的量纲,因此可以直接进行比较,我们将标准差与均值的比值定义为变动系数:
- 标准差 / 均值 x 100%
变动系数比较了标准差与均值之间的关系,可以直观的了解随机变量取值的变动程度。
随机变量取值分布的形状的度量
偏斜程度
在之前的内容里曾提到了直方图对于分布形状的描述能力,最简单对于分布形状的一个描述就是总体取值的偏斜程度 Skewness,其不仅可以定性的描述为“左偏”,“右偏”,还可以通过定量的计算来获得,其计算公式为:
- Skewness = nΣ[(xi - x̄) / s]3 / [(n - 1)(n - 2)]
其绝对值越大代表偏斜程度越高,并且右偏结果为正值,左偏结果为负值。当数据右偏时,均值一般会大于中值,当数据左偏时,均值会小于中值,所以中值在数据偏斜程度比较高的时候可以比均值更好的衡量数据分布的位置。
标准值 z-score
除了样本集总体的分布情况外,对于每一个样本的取值都可以通过定义一个 z-score,也称标准值 standardized value ,来了解它在数据集中的相对位置,对于第 i 个样本点,其标准值为:
- zi = (xi - x̄) / s
标准值可以理解为样本点的取值与均值的偏离程度可以用多少个标准差的值来衡量,伟大的 Chebyshev 对于数据分布情况和标准值之间的关系给出了一个定理,使得我们可以大致的计算在均值附近的某一个范围内的数据分布的量:
At least 1 - 1 / z2 of the data values must be within z standard deviations of the mean, where z is any value greater than 1.
注意这个定理只针对 z ≥ 1 时才有效,但对于数据整体的分布形状没有要求,对应这个定理有:
-
z = 2 时,至少有 75% 的样本取值落在均值附近正负 2 个标准差的范围内
-
z = 3 时,至少有 89% 的样本取值落在均值附近正负 3 个标准差的范围内
-
z = 4 时,至少有 94% 的样本取值落在均值附近正负 4 个标准差的范围内
当数据整体上呈对称分布时,基于切比雪夫定理可以对于数据的分布情况给出一个经验法则 Empirical rule,即在对称分布中:
-
68% 的数据落在均值附近正负 1 个标准差的范围内
-
95% 的数据落在均值附近正负 2 个标准差的范围内
-
几乎所有数据落在均值附近正负 3 个标准差的范围内
异常值检测
在数据集中如果出现了一个或多个数值极大或极小的异常值,就会对一些位置描述指标的计算,如均值产生较大的影响,这些异常值应该在数据分析的过程中予以检查,并酌情考虑剔除。常用的检测标准为:
-
根据经验法则,对于对称分布的数据,当 z > 3 的数据可以考虑删除
-
利用四份位差:
-
合理下限:Q1 - 1.5IQR = Q1 - 1.5(Q3 - Q1)
-
合理上限:Q3 + 1.5IQR = Q3 + 1.5(Q3 - Q1)
-
数据的描述
有了前面的这些描述指标,可以通过以下 5 个数字来对一组数据进行描述,简称 5 数描述法:
- 最小值
- 25 百分位值
- 中值,也即50 百分位值
- 75 百分位值
- 最大值
这 5 个数字可以将即便很大的数据集做一个很好的划分,如下图所示:
5-number summary更进一步地,在获得了四分位差 Q3 - Q1 后,前面的 5 数描述法还可以使用盒型图来可视化:
Box plot在实际的数据分析中,在进行均值和方差计算前可以先通过对于数字进行排序后通过 5 数法和盒型图来了解数据的分布情况,并检查异常值,之后再做进一步的计算。
协方差 Covariance
上述指标的定义都是针对单一随机变量的,而协方差衡量则可以衡量两个随机变量之间的线性相关性。对于随机变量 x,y 来说,
总体的协方差计算公式为:
- Cov(x, y) = σx,y = Σ(xi - μx)(yi - μy) / N
样本协方差计算公式为:
- Cov(x, y) = sx,y = Σ(xi - x̄)(yi - ȳ) / n - 1,其中 i = 1, ... , n,n - 1 是为了实现校正
从这个计算过程可知:
-
协方差的绝对值越大代表两个变量围绕各自均值同步偏离的程度越大,也即线性相关性越强
-
如果结果是正的,则代表加总项中相同方向变化的项多于相反方向变化的项,即总体上同时增加或减小
-
如果结果是负值,则代表随机变量的多个取值围绕各自均值的变化方向总体上是相反的,加总项中常出现的是一个变量的取值在均值的一侧,而另一个变量的取值在均值的另一侧。这里还可以参考 GRAYLAMB的回答
相关系数 Correlation coefficient
尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数。例如当其中一个变量为身高,另外一个变量为体重时,协方差的量纲则难以被定义。
总体的相关系数计算公式为:
- ρx, y = σx,y / (σx σy)
两个随机变量样本集中 x,y 的相关系数计算公式为:
- rx, y= sx,y / (sx sy)
相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:
-
当 ρx, y = 1 时,说明在所有取值上两个随机变量围绕均值的变化方向均相同,当 ρ = -1 时反之
-
当 ρx, y = 0 或者非常接近 0 时,说明两个随机变量不具有线性相关性或线性相关性较小。但这并不意味着这两个随机变量一定相互独立,也可能具有其他的相关性,除此之外,还要注意相关关系并不意味着因果关系
- 当 0 < ρx, y < 1 时,说明两个随机变量的多个取值围绕均值变化的方向有时是一致的,有时是不一致的
再做一个类比,在线性代数中已知两个 n 维向量 a,b,则有:
- cosθ = a ⋅ b / (||a||||b||) = Σaibi / (Σai2Σbi2)1/2
这个夹角也称为余弦距离,常被用来判定两个向量之间的相关关系。仔细对比相关系数和余弦距离这两个公式可以发现二者讨论的其实是同一个问题:只需要将随机变量 x 的取值结果向量化为 x,并令 a = x - x̄,如此则相关系数和余弦之间只间隔一个向量化的距离:
-
当 cosθ = 1 时,夹角为 0°,对应相关系数计算为 1,二者共线且方向相同,此时完全正向线性相关
-
当 cosθ = -1 时,夹角为 180°,对应相关系数计算为 -1,二者共线且方向相反,此时完全反向线性相关
-
当 cosθ = 0 时,夹角为 90°,对应相关系数计算为 0,二者互相垂直,线性无关
数学原理本身是不分学科和专业的,它们被分离在不同的课本和学科内是为了方便的在一个领域内形成一个体系,但在理解数学的时候完全可以突破学科和课本的限制,这样才能形成一个更加广阔的图景。
Spearman's rank correlation
相关系数也被称为 Pearson's Correlation,以表彰 Karl Pearson 在统计领域所做出的贡献。这个统计量在两个变量不具有线性相关性时会忽视二者之间的关系,且其计算容易收到异常值的影响,为了克服这一缺点,引入了 Spearman's rank correlation,后者的计算方法为首先先将两个变量按照数值大小进行排序,在排序的基础上再计算二者的相关系数。
决定系数 Coefficient of Determination
这一部分是我自己做的一个扩展,并非书上的内容,为了方便查看放在了这里,不代表原书作者的观点。
在实际的统计工作中,如果已知疑似具有线性关系的自变量 x 和因变量 y 的多个取值,我们可以通过最小二乘法来构建一个线性回归模型 ŷ = mx + b 来对新的 x 生成一个具有预测作用的 y 的取值。在这个过程中,我们可以通过最小平方误差 MSE 来衡量模型的预测值与实际取值之间的差异。
Sum of squared errors by predicting with regression但假如我们只有一系列的 y 的值而没有对应的 x 的取值,此时,如果需要构建 y 的预测值,最好的办法就是通过计算 y 的均值,并且用这个值来作为未来所有 y 值的预测值。在这个过程中引入的误差值如果在 x 与 y 具有线性关系的时候会大于上述回归得到的误差值。
Sum of squared errors by predicting with y average这两个误差值之间的相对差异被成为决定系数 Coefficient of Determination,因为这个值也是相关系数 r 的平方,因此也称为 R2。对应上面这个例子,R2 = (41.1879 - 13.7627) / 41.1879 = 0.6659,也即 R2 衡量了线性回归在 y 的预测过程中对于误差的减少的量。
R-squared tells us what percent of the prediction error in the y variable is eliminated when we use least-squares regression on the x variable.
如果我们仔细观察上述两个计算过程,就可以知道针对 y 均值的计算过程实际上获取的是 y 的方差值,或变动值,因此,我们也可以说 R2 衡量的是 x 值的变动情况对于 y 的变动情况的影响。
How much of the total variation of y is determined/described by the variation in x.
免责声明
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。
网友评论