作为前数学专业毕业生,学过的概率统计知识已经忘记得差不多了,对于统计学的概念能清楚记得的也只有方差,标准差和均值了。正态分布只记得了一个曲线图了,其他性质什么的都不记得了。更遑论说知道每一个统计变量的意义了。所以看到这个书名的时候就挺好奇这个所谓的极简的统计学究竟简单到什么程度。事实上看完之后确实觉得真得讲得很简单了,有初中以上的数学程度就可以轻松看完全书了。关键是没有生硬地去讲公式的证明和推导,一些复杂的理论都是直接给出结论的,重点在比较形象地去说明每个统计量和公式的含义和用法,让我们能更好地理解和运用这个统计量来解决现实中的问题。
已经很难在可以理解的基础上对本书中的一些说明过程做进一步浓缩了,这里也不会做这样的努力。本文只是尝试在读过《极简统计学》之后将其中我认为有用的知识点和需要记忆的内容提取出来,做成一个结构清晰的速查性质的文摘,这样必然会损失其中的一些逻辑上的关联和形象生动的示例过程,如果再看过本文之后对这些内容感兴趣,可以去找来原书通读一遍。事实上我当时读完整本书也就只用了8个小时左右。
总述
《极简统计学》共计21章,分为两部分来组织全文,第一部分主要介绍一些统计量,第二部分通过这些统计量来完成一些推论统计的过程。通读全书之后可以发现,本书的最终目的只是为了完成了两件很有意义的推导:
- 如何在只知道样本数据的情况下推算正态母群体的总体方差
- 如何在只知道样本数据的情况下推算正态母群体的总体均值
本文自然不会再完成这样一个推导过程。和原书的结构一样,本文也会分为两部分来做摘要,一部分是统计量,一部分是区间估计的方法。
统计量
平均值
平均值 = (组值*相对频数)的合计
平均值 = (数据总和) / (数据数)
上述两个公式都被用来计算算术平均值,事实上第一个可能用得更多。但是要明白,上面的两个公式都是用来计算算术平均值的,但是取平均值的方法并不止一个。
算术平均值
几何平均值
均方根值
调和平均值
加权平均值
一般来说:如果想在合计意义上保持数据的本质,则使用算术平均值;想在乘积的意义上保持数据的本质,则用几何平均值,如成长率;对待速度则一般用调和平均值。
平均值的性质
- 数据在平均值的周边分布
- 多次出现的数据对平均值的影响力大
- 直方图呈左右对称的情况下,其对称轴通过的点即平均值
方差和标准差
偏差 = (数据的数值)-(平均值)
方差 = [(偏差的平方)的合计]/(数据数)
标准差 = 方差的开平方 = 偏差的均方根值
也可以通过分组之后计算相对频数的方式计算方差:
方差 = (组值 - 平均值)的平方 * (相对频数) 的合计
数学表达式
方差
标准差
意义和性质
平均值是从数据的分布中取出的代表的数。因此,可以认为数据以平均值为基点,在其左右扩散。评价这种扩散、分散的标准就是标准差。标准差将数据平均值的离散方式进行平均化。此时无论向大的方面离散还是小的方面离散,都用正数进行评价,避免相互抵消的平均。
这里和原书一样,通过S.D. 来表示标准差,这是原书一个非常重要的统计量。一般会以S.D. 作为判断数据特殊性的标准。可以认为只距离平均值1个S.D. 的数据为普通数据,距离平均值超过2个S.D. 的数据为特殊数据。
S.D. 具备如下性质:
- 数据组X的全部数据加上定值a得到新数据组Y,数据Y 的平均值是数据X的平均值加上a, 数据Y 的方差和S.D. 与数据X相比不变
- 数据组X的全部数据乘以定值k得到新数据组Y,数据Y 的平均值是数据X的平均值乘以k, 数据Y 的方差是数据X方差的k平方倍,S.D. 是k倍
- 将数据进行[(数据)-(平均值)]/(S.D.)的加工,所得的数据的平均值为0,S.D. 为1
现实的应用
-
股票的交易中,不仅要考虑收益的平均值,收益率的S.D. 也和重要。股票收益率的S.D. 的术语称作波动率。
-
S.D. 也可以用于理解金融商品的优劣,可以说在同样的平均收益率下,S.D. 小的是优良的金融商品;而在同样的S.D. 下,平均收益率大的是优良的金融商品。金融商品的优劣性的评价基准是夏普比率(SPM):
( X的夏普比率 ) = [ ( X的回报 )-( 国债收益率 ) ] / ( X 的风险 )*
一般认为夏普比率越大,金融商品越是优良。
正态分布
标准的数学著作中,正态分布需要有概率密度函数来决定,需要从概率的角度来进行推导,原书为了简便起见,完全不涉及概率的知识,这里也一样,只从应用的角度来对正态分布的性质做一个说明。
可以认为分布规律符合下面的图形的数据是正态分布的(μ代表平均值,σ代表标准差):
8.jpg标准正态分布 是平均值为0,S.D. 为1的正态分布。
从上面的图形中可以看出一些正态分布的性质:
- 横轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
- σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
- 平均值为μ,标准差为σ的正态分布数据可以通过公式 z=(x-μ)/σ 回到标准正态分布
中心极限定理:设从均值为μ、方差为σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。
我们可以认为,实际观测到的不确定现象,如果是有很多单一的不确定现象复合而成,则可以将他们解释为"在中心极限定理的作用下表现为正态分布",如动物身长,股票价格等现象。
正态分布的应用
使用正态分布的知识,可以进行"预测"。从上面的描述的正态分布的性质可以看出来,如果我们把关注的不确定现象看做正态分布,那么,利用正态分布的性质对将要出现的数据进行预测就将成为可能。
从上面的正态分布曲线图可以知道,如果想加大预测的命中概率,就要扩大区间范围,如果想要100%命中,预测范围将是负无穷到正无穷的范围。通用的是"95%命中"或者"99%命中",原书中选取了世界上最常用的"95%命中"。后续的说明都是基于这一个命中概率来进行的。
从95%命中区间出发,可以得到两个结论:
- 标准正态分布的95%预测命中区间为-1.96以上+1.96以下。
- 平均值为μ,标准差为σ的正态分布的95%预测命中区间为[μ - 1.96σ, μ + 1.96σ]
应用1
有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可以按照下面的方法进行:
其总体参数的母群体是正态分布,平均值为μ,标准差为σ时,如果观测到的数据x的不等式:
-1.96 <= (x-μ)/σ <= +1.96
成立,假设不被舍弃(接受);否则,假设被舍弃。
这里,其实并没有开始预测,只是对一个随意的总体参数是否合理做了一个检验,而检验的依据是我们一般认为我们观测的数据都会落在总体数据分布的95%置信区间内,如果假设的总体参数不满足让观测数据落到置信区间,则将假设舍弃,否则接受。
应用2
区间估计 是这样一种估计方法:它针对母群体的总体参数,在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据“95%预测命中区间”的总体参数。根据区间估计确定的总体参数的范围叫做"95%置信区间"。由区间估计求得的区间,是对所有的总体参数进行上面应用1中的检验操作,不舍弃而保留下来的集合。
关于正态母群体已知标准差σ时,对未知的平均值μ进行区间估计的方法:使用观测到的数据x,解关于μ的一元一次不等式
-1.96 <= (x-μ)/σ <= +1.96
得出 "* <= μ <= *"的形式即可。
95%置信区间是这样一种区间:它有各种各样的观测值用相同的方法进行区间估计,其中95%包含正确的总体参数。
统计量部分的描述就此结束了,这部分主要是通过不同的统计量来刻画数据的特征,并简单地说明了对正态母群体进行“统计检验”和"区间估计"的方法。
推论统计
在现实生活中,我们是基本不可能观测到总体的全部数据的,很多时候只能获取到总体中一部分的数据。但是我们从一些现象中也可以得出这样的结论“如果进行充分的观测,就能相当鲜明地捕捉母群体的情况”。但是我们的目标是:“不进行那么大量的观测而推测出母群体的情况”。
我们知道,从母群体中观测到的数据是受母群体的总体特征制约的。原书给出了这样的结论:
- 观测到的数据,可以在一定程度上认为接近总体均值
- 观测多个数据,取样本均值,比观测一个数据更接近总体均值,观测数据越增加,样本均值接近总体均值的可能性越高。
我们回到先前的目标,就是要通过样本数据推测母群体即总体的情况。这依赖母群体的一些数学性质,原书作为统计的入门书,并没有也不需要给出这些数学理论的证明,这里直接拿来用就可以。
- 正态母群体取样本均值的分布仍为正态分布
- 设从均值为μ、标准差为σ的一个正态总体中抽取样本量为n的样本,则样本均值的抽样分布服从均值为μ、标准差为σ/√n 的正态分布
从上面的性质可以得到这样的结论:
对于均值为μ、标准差为σ的一个正态总体的n个样本均值来说,其95%置信区间为有下面的不等式解出来的范围,a为样本均值
-1.96 <= (a-μ)/(σ/√n)) <= +1.96
本部分其实就是要达到四个目标:
- 已知正态母群体和总体方差时,对总体均值的估计
- 已知正态母群体和总体均值时,对总体方差的估计
- 已知正态母群体,未知总体均值时,对总体方差的估计
- 已知正态母群体,未知总体方差时,对总体均值的估计
下面来分别说明。
已知正态母群体和总体方差时,对总体均值的估计
这个估计是很简单的,通过公式:
-1.96 <= (a-μ)/(σ/√n)) <= +1.96
可以推出μ的95%置信区间是:
a-1.96(σ/√n) <= μ <= a+1.96(σ/√n)
已知正态母群体和总体均值时,对总体方差的估计
正态母群体的样本均值是符合正态分布的,而且样本均值也体现了总体均值的性质,可以通过上面的不等式来推导出总体均值的估计。样本方差当然也体现了总体方差的性质,但是样本方差并不服从正态分布。样本方差服从的是卡方分布。
卡方分布 若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
卡方分布的分布曲线如下:
从前面的知识我们可以知道,对于从正态母群体中观测到的n个样本,用如下公式表示的统计量V是自由度为n的卡方分布:
卡方分布的分布的临界值表如下:
通过查表可以知道V在95%置信区间的范围,从而求出总体方差的95%置信区间。如对于自由度为5的卡方分布V来说。95%的置信区间可以按照 0.83 <= V <= 12.83来计算最终的总体方差的置信区间。
已知正态母群体,未知总体均值时,对总体方差的估计
从上面根据正态母群体的总体均值来推测总体方差的估计中我们可以看到,必须先要有知道总体均值,才能对总体方差进行估计,这是一个很不自然的假设。在实际应用中也是不太可能知道总体均值的存在的。那么如果不知道总体均值的时候,如何估计总体方差呢。
自然的想法是能不能通过样本的均值和方差来对总体的方差的估计。事实是统计学家们已经证明了下面的统计量W也是一个卡方分布,只不过自由度不是样本数据数n,而是n-1,(其中):
这里不用考虑如何证明W是自由度为n-1的卡方分布,直接去使用这一结论即可。我们有样本方差的公式:
从而可以推导出:
因为W是自由度为n-1的卡方分布,通过对w的95%置信区间的估计就可以得到一个不等式,解这个不等式就可以得到总体方差的95%的置信区间,完成对总体方差的估计。
已知正态母群体,未知总体方差时,对总体均值的估计
现在只剩下最后一个困难的问题了,如何在只知道样本数据的情况下的得到总体均值的估计。从前面的讨论中其实可以看出,除总体均值μ以外,如果我们能只用样本数据得到的统计量,清楚其分布,我们自然就可以得到总体均值的估计。
英国化学家戈塞特发现了这样一个分布,并命名为t分布。我们可以看一下t分布的定义和特征。
如下公式表示的统计量T服从自由度为n-1的t分布:
我们知道,从正态母群体中的n个样本数据得到的统计量z服从标准正态分布:
但是在现实中,统计量σ往往是未知的,所有不能通过z来求得总体均值的估计。事实上统计量T和z形式上很像,不难看出,如果n足够大的时候,T的分布趋近于标准正态分布,但是当n并不是足够大的时候,T的分布和标准正态分布的偏差并不能被忽略。
t分布的概率密度分布图和特征如下:
特征
- 以0为中心,左右对称的单峰分布
- t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线,如上图.
t分布速查表
对于每一个指定的自由度,如果求T的95%置信区间,只需要左右分别去掉0.025即可。如自由度为10的t分布的95%置信区间是-2.228 <= T <= 2.228。通过前面推导出来的T的统计量即可得到对总体均值μ的估计。
至此,在未知总体方差时,对总体均值的估计也已经完成
总结
以上介绍了一些常见的统计量和比较常用的通过样本数据估计总体统计量的几个方法。原书毕竟只是一本统计学的入门书籍,通过本文可以对原书的结构和内容做一次概括的了解。如果想知道这些统计量具体的应用场景,可以查阅原书。对于统计学更高深的知识,读者可以去学习更专业的统计学课程。
事实上,作为统计学中最基础的两个统计量:平均值和标准差,已经能够刻画出来数据很重要的一些特征,如果能够从样本数据中推导出总体的的平均值和标准差,可以说是很了不起的一件事儿,能在现实生活生产实践中给予我们很多帮助了。
最后附上本书主要内容的思维导图
极简统计学.png
网友评论
大神啊,可以交流下数据分析,机器学习吗,我Q 35816146
建了大数据自学交流群 829163554 请大神光临,方便大家的,培训的勿扰!!