“既然选择,便只顾风雨兼程。”
文:蓝兔子读难NOTES
图:配图 来源于网络
编码:0004
[Quantitative Methods]
[Statistical Concepts and Market Returns]
CFA在本章内容的设置上还是主要以概念为主,其中大部分的内容我们在之前应该都有所接触。像是均值和众数这些概念,与生活也是息息相关的,相信大家都不陌生。而少数几个平时很少接触的概念,也都是相对简单和易于理解的,学习记住即可。
引言
统计,通过对一系列的数据进行分析而得出有用的结论。统计学的前辈们,早已为我们设计好了各种各样的统计学工具(Statistical methods),我们要做的,就是利用这些工具去对数据进行分析。具体到CFA这里,这些工具被用来分析例如资产的收益、大宗商品的价格等金融数据。最常见的,就是大家利用K线图来判断股票走势,而我们看到的K线图就是股票走势的历史数据。
另外,当数据容量较大时,我们没法对每一个数据进行列举,但是我们可以用统计学的方法,利用数据的某几个特征来描述或者代表整组数据。例如一个班级有50名同学,每一个人都有一个身高,我们很难简单的表示出这个班级同学的身高情况,如果将每一个人的身高都列出来,将是一个很大的工作量,而统计学则告诉我们,可以利用平均身高来代表整个班级的情况,利用离散程度来代表每个人身高与平均水平的差异程度。
在本章介绍统计相关的概念时,我们主要以金融工具的收益作为分析对象。在分析金融工具的收益时,我们更多的是关心数据的以下四个属性,收益的
中心趋势(central tendency),历史收益的平均水平在哪个位置
离散度(dispersion),平均水平两边的亏和赚是什么水平
对称性(symmetrically),亏和赚的分布是不是对称的
峰度(kurtosis),出现极端数据的情况
基本概念和术语
统计学的两大类别
描述性统计学(descriptive statistics),通过统计,用简单的统计结果来代表目标数据,例如某股票过去十年的平均收益率为8%。
推断性统计学(inferential statistics),通过统计,来预测目标的将来表现,例如通过股票过去表现,来预期其明年的收益率。
总体与样本
总体(population),是被统计对象的全体。
样本(sample),是被统计对象总体的一部分。
以统计全校同学的身高为例,总体就是全校同学的身高,如果抽出一部分人出来代表全体学生,那这部分人就是样本。需要注意的是,这一部分学生是一个样本,而这部分学生的数量,叫做样本的容量。另外,用于描述总体的统计量叫做参数(parameter),而用于描述样本的统计量,叫做样本统计量(sample statistics)。
四种度量衡(measurement scales)
名义尺度(nominal scale),例如样本分为男、女,区分的“男”和“女”只是一个代号,没有联系,不能加减,也不能乘除
顺序尺度(ordinal scale),例如比赛的排名顺序,第一名,第二名,有先后顺序,但不能加减,也不能乘除。
等差尺度(interval scale),例如米尺,每一个刻度是相等的,23mm和45mm可以相减,但不能乘除。
等比尺度(ratio scale),可加减乘除,如收益率。
数据的图标展示
需注意频数(absolute frequency)与频率(relative frequency)的区分,前者是出现的次数,而后者是出现次数的比率。另外还需注意累计频数(cumulative absolute frequency)或累计频率(cumulative relative frequency),指的是该位置之前的所有数据。
频数分布直方图(histogram)
频数多边形图(polygon)
(下图为频率图,频数图同理)
中心趋势
本章内容在介绍统计学时,主要是在对金融市场的收益进行分析。而所谓的中心趋势,就是每次收益与收益整体水平的趋同性,这里的中心,指的就是整体的综合表现。在衡量金融市场某一个金融工具的收益综合表现时,我们一般使用均值(mean),中位数(median)和众数(mode)三个指标来衡量。
均值
算数平均值(arithmetic mean)
几何平均值(geometric mean)
调和平均值(harmonic mean)
加权平均值(weighted mean)
各个平均值的公式就不具体展开描述了,相对都比较简单,在初中或者高中的数学中应该都有所接触。但需要注意的是,几何平均值一般用于考量过去的表现,而算数平均值则用来预测下期表现,所以余额宝在提供参考利率时,使用了最近7天的平均利率。另外,三者之间还存在如下关系:算数平均值≥几何平均值≥调和平均值。而加权平均值,则用于按照比重计算多个资产的整体收益。
中位数
中位数也相对比较好理解,就是处于最中间的那个数据,如果目标样本的容量为基数,则中间就比较好确定,但是当样本容量为偶数时,要使用中间两个数的均值。
众数
众数也挺简单,就是出现次数最多的数,在频数分布直方图中,众数就是最高的直方。需要注意的是,一组数据既有可能有多个众数,也可能没有众数。
离散度
上一部分内容,我们说的是中心趋势,也就是整体的平均水平,这一部分要说的离散程度,则正好相反,是收益平均水平两端的数据情况,也就是偏离平均水平的情况。一般使用绝对离差(absolute dispersion)和相对离差(relative dispersion)来衡量。
绝对离差
极差(range)
平均绝对离差(mean absolute deviation | MAD)
方差(variance)
标准差(standard deviation)
小伙伴们看着这几个名字,赶紧回忆一下公式,看看自己是否还记得。
相对离差
绝对离差在衡量离散程度时,会受到样本的影响,不同样本规模之间比较有困难。而相对离差,就是克服了这个困难。用标准差去除以样本均值,将标准差标准化为每一份均值所对应的标准差,这样不同样本之间就能进行比较了,这就得到了变异系数(coefficient of variance | CV):
除了变异系数外,切比雪夫不等式(chebyshev‘s inequity)也用来描述给定标准差区间的离散程度:对于任意,有限标准差的分布,其数据落在k个标准差范围内的概率至少为 1 − 1/k^2。
最后,还有一个分为数(quantiles)的概念,用于确定在整份数据中某一具体位置的数据情况,小伙伴们记住公式就可以了:
另外要注意的是,四分位(quartiles)、五分位(quintiles)和十分位(deciles)这几个常见的单词。还有就是当L计算结果为小数时,要按照中位数的模式去处理。
中心趋势衡量的是数据的平均水准,而离散程度则衡量的是数据在平均水准以外的分散程度,平均水准我们把它叫做收益,收益的不确定性就是风险。
对称性与峰度
对称性(symmetrical)和峰度(kurtosis)是非常形象的两个名词,因此理解起来非常容易。当分布不具有对称性的时候,则就具有偏度(skewness),根据小尾巴在左边还是右边,分为正偏(positive)和负偏(negetive),结合坐标轴来理解,小尾巴在正半轴为正偏,小尾巴在负半轴为负偏。
左偏右偏的情况,注意相应的均值和众数等分布。最高处为众数,中间的为中位数,均值分布在另一侧。
了解了偏度以后,就是峰度了。偏态是在左右尺度上,而峰态则是在上下尺度上。注意区分两个词高峰(leptokurtic)和低峰(platykurtic)。峰度和偏度的公式了解就行,要记住高峰和低峰的临界点值为3。
为了将临界点归到0为基准,引入了超额峰度(excess kurtosis)的概念,即峰度-3。而正态分布的超额峰度正好为0,又称为常峰态(mesokurtic)。
原文链接
网友评论