均值与方差是我们用来描述一个分布的最常见两个特征值,回想下计算方差时,分母为每个观测值与均值的偏离值平方之和,

在很多情况下,均值与方差对于描述一个分布的特征来说还是不够的,这里就要引入矩(moments)的概念,矩定义如下

可以看到方差对应k=2的情况,而本篇文章就主要来介绍k=3与k=4的情况,此时对应得到的特征值称为偏度与峰度。
偏度(Skewness)
偏度表示一个分布的对称情况,拿正态分布来说,其概率密度函数为

从概率密度函数就可以看出其图形应该是关于x=μ对称的,我们绘制一个均值为0的正态分布,来证实下这个结论。

如果一个分布不对称,我们就称其为偏态分布。如果分布中存在一些偏离较大的负数据,那么就称为负偏,相反,如果存在偏离较大的正数据,则称为正偏。
- 对称的分布,则其偏度为0
- 正偏的分布,其偏度>0,均值>中位数>众数(出现最多的数据)
- 负偏的分布,其偏度<0,均值<中位数<众数(出现最多的数据)
偏度的定义式:

我们绘制两个概率函数,一个正偏一个负偏,这里我们使用对数正态分布(正偏)作为数据来源,通过数据的方向处理,就能得到负偏的图形。

峰度(Kurtosis)
峰度是代表在均值处峰值高低的特征值。对于正态分布来说,其峰度称为常峰度,所有的正态分布,不论均值与方差,其峰度均为3
- 高峰度 峰度>3
- 低峰度 峰度<3
以3为基准,将X-3称之为超额峰度
使用SciPy库,我们绘制一套高峰度、低峰度、常峰度的图形


峰度的定义公式:

Jarque-Bera检验实例
Jarque-Bera检验是一个常用的检验,它通过对比样本的峰度与偏度来确定样本与正态分布的相似程度。这里我们将对标普500ETF的收益情况进行一次检验,并得到其P值。
Jarque-Bera检验的原假设是样本是从符合正态分布的总体中抽取出来的,如果最终得到的p值小于置信度,则可以拒绝该假设,相反,则可以接受原假设。

注:最终得到标普500ETF的收益情况不符合正态分布的结论
这篇文章就到这里,感谢阅读,欢迎订阅:)
网友评论