
作者: [美] 乔丹•艾伦伯格(Jordan Ellenberg)
出版社: 中信出版集团
副标题: 大数据时代,数学思维的力量
原作名: How Not to Be Wrong: The Power of Mathematical Thinking
译者: 胡小锐
第四部分关键词: 回归平均值,随机性,定性和定量分析
第14章举例介绍了什么是回归现象,强调“只要研究对象受到随机性的影响,就会产生回归平均值现象”。 第15章则定性分析了这种随机性的影响,如何通过图形直观展现变量之间的相关性,介绍了散点图、等高线、二元正态分布、离心率/相关系数。 第16章则强调了相关关系不同于因果关系,比如我们知道肺癌和吸烟存在相关性,却很难证明“因为吸烟所以肺癌”的因果关系。”
第14章 我们为什么无法拒绝平庸
本章定性介绍了几种回归现象:
(1)西克里斯研究企业经营业绩的好坏变化情况,最终发现大部分优秀的企业都会变平庸,西克里斯认为回归平庸是竞争的结果。十年之后,霍林特强调这个现象是纯粹的数学现象,即回归平均值现象,和竞争没有关系。
(2)高尔基认为,人的能力是遗传而来。虽然这个结论得到很多人的抵制,至少在更容易量化的人类特征例如身高方面,这个现象更明显。高尔基通过 研究人的身高,发现了“回归平均值的现象”。如果父母都很高,他的孩子身高也很高(高于孩子社会平均身高),但会低于父母的平均身高,如果父母的都很矮,孩子的身高也会比较矮(低于孩子社会平均身高,但是会高于父母的平均身高。
回归是一个数学问题
事实上,生活中随时间产生起伏变化的任何东西,几乎都受到回归效应的影响。
我感觉作者犯了一个错误,作者强调回归平庸是一种数学问题,所以从竞争等角度解释都是不对的。但是数学现象不代表无法解释,既可以从数学角度解释,也可以从经济的角度去反映这种解释过程。作者认为西克里斯的解释是枉费心机,但是我觉得竞争和调控造成波动性,就可以产生回归现象。
备注:(1)企业都会变平庸的例子,总感觉有些过时了,二十年代的企业管理策略不完善可能导致企业总会被某些糟糕的问题困住,但是进入二十一世纪,百年企业越来越多,很多跨国企业都没有破产的可能性了,这其中就有竞争力、资源、先发优势等因素。
备注:(2)回归平均值现象,类似于一种自然作用,但是人的干预能力越来越强,上面说的优秀企业更容易一直优秀,对个人来说,良好的教育也能让孩子摆脱回归平均值的现象,所以高等教育父母的孩子更容易接受良好的教育,这就涉及到充分意识的层面了。备注:(3)成功也受到回归的影响,因为成功受到”天赋、运气“等难以控制的因素的影响。所以超常发挥的选手容易在下一次比赛中发挥变差,因为他的发挥趋向于他的平均水平。从这个角度讲,一个人的水平越来越高,也是他控制能力越来越强的表现,他能把别人看起来波动性的影响因素变成可控的因素。
第15章父母高,孩子不一定高
如何更直观的表达变量之间的相关性程度,即回归程度,或随机性因素的作用。
高尔基发明了散点图,散点图的分布情况可以直观的反映x 和y 两个变量的对应关系。散点的形状可以反映数据的关系,比如圆形(无相关性),椭圆形(存在相关性,离心率反映相关性大小),集中在对角线直线上(完全相关,相关系数=1)。
下图是父亲的身高和儿子的身高的散点图,散点大致形成一个椭圆,说明两者存在相关性。这个散点图也能反映身高的回归现象,即更高的父亲的儿子的身高也高于平均值,但低于父亲身高;更矮的父亲的儿子的身高也低于平均值,但是高于父亲的身高。
[图片上传中。。。(2)]
上图的散点形成一个椭圆形,椭圆形的胖瘦程度在经典几何学中被称作椭圆形的“离心率”( eccentricity )。
高尔顿则把这个量叫作“相关系数”( correlation ),这个概念一直被沿用至今。当高尔顿的椭圆形接近于圆形时,相关系数接近零;当椭圆形很扁并且它的轴沿着东北 — 西南方向延伸,相关系数就接近于 1 。
高尔顿很快发现,相关系数的应用并不仅限于遗传研究领域,只要两个量彼此之间可能有关系,就可以用相关系数来分析。
贝蒂荣人身测试法的效果和数据相关性。
不同于现在的指纹识别,DNA识别甚至人脸识别(从相关性的角度看,人脸识别都选择了哪些关键参数?),19世纪的量化方法是贝蒂荣人身测试法,通过收集每个犯罪分子的一系列身体特征,比如身高、肘长等,从而建立罪犯的数据库,方便警方从数据库中匹配犯罪嫌疑分子。
这儿要强调的是如何才能用最少的身体特征获得最好的人身识别效果,关键就是多个人体特征之间是否存在相关性。
最有效的测量数据应该与其余各项数据都没有相关性,而有相关性的数据可以通过高尔顿收集的大量人体测量数据计算出来。
我们以为测量了 5 种数据,但是,如果肘长与手指长度这两个数据项所包含的信息一模一样,那么实际上测得的数据仅有 4 种。
存在相关关系的测量数据越多,有效类别的数量就越少,贝蒂荣人身测定法的效果就越差。
测量数据间的相关性越强,贝蒂荣记录卡包含的信息量(按照香农的理解)就越少。
我们生活的环境成了数字化信息的世界,相关性会使有效信息量减少的理念也成为最核心的组织原则。
数据的相关性,让数字压缩技术成为可能。
wyk总结:数据包含的信息量多少,受到数据之间的相关性的影响。相关性越大,真实信息量就越少。信息时代的信息传递,如何在信息的传递效率和准确性之间获得最优,就涉及到数据压缩技术和数据冗余技术。
相关性的几何学定义——如何定量分析相关性
一组数据相当于多维空间的一个点,两组数据之间是否存在相关性,就是对比多维空间的两个点对应的向量组成的夹角的余玹,通过余弦值定量确定两组数据的相关性程度。
这就是用几何语言表述的皮尔逊公式,两个变量之间的相关性是由这两个向量之间的夹角决定的。如果用三角学来描述,相关性就是夹角的余弦。至于你是否记得余弦的含义,这并不重要,你只需知道0度角(即两个向量指向相同方向)的余弦为1,180度角(两个向量指向相反方向)的余弦为–1。如果两个向量的夹角为锐角(小于90度的角),那么它们之间存在正相关关系;如果两个向量的夹角大于90度,即为钝角,那么它们之间存在负相关关系。笼统地讲,当夹角为锐角时,两个向量“指向相同方向”;而当夹角为钝角时,两个向量会“指向相反方向”。
相关关系和因果关系
(1)相关性不具有传递性!
相关关系不等同于因果关系,因果关系存在传递性,但相关性不具有传递性。
如果相关性真的具有可传递性,医生只需要这些相关性之间建立联系,就可以有效地治疗各种疾病。
(2)确定相关性的存在,和解释其存在的原因,不是一回事。
第16章 因为患了肺癌你才吸烟的
两个变量怎样才算具有相关性?不同于简单的2>1,这儿的两个变量受到随机性的影响,所以都不是唯一值,比如比较“中国人的身高与日本人的身高”,这儿的关键就是“显著性检验“,本书这儿没有展开介绍。
证明两个因素之间存在相关性,却未必很容易证明为什么存在这种相关性。比如肺癌和吸烟存在相关性,我们却很难证明“因为吸烟所以得肺癌”,我们甚至无非否定是否是“因为患了肺癌才吸烟的”。
网友评论