《魔鬼数学》分享笔记

作者: 周周z云金周 | 来源:发表于2018-09-06 15:30 被阅读0次

《魔鬼数学》分享笔记
魔鬼数学读书笔记
《魔鬼数学》
魔鬼数学
魔鬼数学
魔鬼数学
《魔鬼数学》
魔鬼数学
读书笔记：魔鬼数学1
读书笔记：魔鬼数学3

Dr. Yang直播《魔鬼数学》Dr.Yang，PhD in math from Texas A&M Univ. and now an instructor in computer science department of SIU-Carbondale. I have taught machine learning, computational statistics for 3 years in SIU-Carbondale.

《魔鬼数学》作者Jordan Ellenberg，一个数学界的超级明星，两届奥数金牌，目前任教于美国威斯康星大学数学系。这本书主要讲述了如何用概率统计原则解决生活中问题。概率统计可以帮助我们更好地了解这个世界的结构和本质，应该被放在每个有思想的人的工具箱里，用于更好地解决问题，并且规避谬误。

数学天才jordan ellenberg 老师是大数学家berry mazur 这本书表面上是关于数学的实际上是关于我们的日常生活中应该如何应用概率统计 2013年新罕布什尔大学的数学讲师张益唐宣布，他成功地证明的孪生素数猜想，令理论数学界震惊不已，但广大人民群众依然不了解数学在现实生活中有什么用。

概率论归根结底是一种普通常识，只不过表现为微积分的这种形式在我们做出某些选择或者某个决策时概率论算无遗策，我们总可以借助他找到最有利的方案，这段话验证了一个观点，数学就是常识的衍生物。

本书首先伦论述abraham wald的故事，他是一位在第二次世界大战期间为美国政府工作的东欧天才数学家，有一天军方来找他，要求他看看飞机上的弹孔统计数据在飞机的哪个部位加装装甲比较合适瓦尔德拿到了数据一看引擎上平均每平方英尺有1.1个弹孔机翼1.73个弹孔油料系统1.55个弹孔其他部位1.8个看起来机翼和其他部位，最容易受到攻击，应该叫装装甲才行。瓦尔德回应让军方大吃一惊飞机上，应该加装重装甲的地方不是弹孔多的地方，而是弹孔少，甚至没有弹孔的引擎，为什么会这样呢？瓦尔德这个逻辑非常简单，飞机各部位中弹的概率应该是一样的为什么引擎声会很少这些弹孔到哪去了呢，原来这些弹孔已经随着坠落飞机落在地球上去了。军方统计的只是返航飞机，那些遭遇不幸的飞机被忽视掉了这就是著名的幸存者偏见。

1 假设检验

很多科学问题都可以被简化为二选一的简单形式：某件事正在发生，是还是不是？针对某种疾病研发的新药对该疾病确有疗效，还是作用为零？某种心理治疗方法可以提升我们的愉悦感（或者让我们更加兴奋），还是毫无效果？这种“毫无效果”的情况就叫作“零假设”（null hypothesis）。所谓零假设，指的是假设所研究的介入活动不起任何作用。如果我们是研发人员，研发了某种新药，那么零假设会让我们辗转反侧、无法入睡。如果无法将之排除在外，就无法知道我们选择的是可以取得医学突破的正确方向，还是做无用功的错误方向。那么，如何推翻零假设呢？我们可以借助某个标准框架——“显著性检验”（significance testing），来实现这个目的。20世纪初，现代统计学方法的创始人Fisher提出了该标准框架的常用形式, 给出推翻零假设的程序：

开始实验。

假定零假设为真，设p为观察结果中出现极端情况的概率（零假设前提下）。

数字p叫作p值。如果p值很小，我们就可以认为实验结果具有统计学显著性；如果p值很大，我们就得认零假设还没有被推翻。

在显著性与非显著性之间并没有一条泾渭分明的原则性分界线，但是传统观点认为p=0.05是临界点，这个传统观点始于费舍尔本人。我们可以把零假设显著性检验视为一种模糊的反证法：

假定零假设H为真；根据H，得到某个结果O的可能性非常小（比如，低于Fisher设定的0.05这个临界值）;但O是可以观察到的事实；因此，H成立的可能性非常小。很明显把“p<0.05”等同于“对”，以及把“p>0.05”等同于“错”，这两种做法都是不对的。人们凭直觉认为归为不可能法是一种有效的方法，事实也的确如此。但是，在挖掘数据背后隐藏的科学真理时，它并不能充当行为准则。那么，我们还有什么别的选择呢？如果我们做过实验，就会知道科学真理不会凭空出现或敲锣打鼓地找上门。从海量的数据中做出有效的推理，并不是一件轻而易举的事。一个常用的简单办法，就是在显著性检验的基础上报告“置信区间”（confidence interval）。报告置信区间的做法需要我们稍稍拓宽概念范围，不仅考虑零假设，还要考虑一系列其他假设。置信区间指的是，一系列顺利通过归为不可能法检验的假设与我们实际观察结果之间一致程度的合理范围。

在本例中，置信区间的范围有可能是+3%~+17%。零假设规定的0并没有包含在内，这一事实正好说明，10%这个结果具有统计学显著性。但是，置信区间的意义不只是这些。当置信区间是[+3%，+17%]时，我们可以肯定这种效果是存在的，但并不代表效果非常显著。另一方面，置信区间是[+9%，+11%]时，则表明可信程度高得多——这种效果不仅肯定存在，而且很显著。即使实验结果不具有统计学显著性，即置信区间中包含0，我们也能从中得出很多信息。如果置信区间是[–0.5%，0.5%]，则说明实验结果之所以不具有统计学显著性，是因为我们有充分的证据证明介入手段没有任何效果。如果置信区间是[–20%，20%]，实验结果不具有统计学显著性的原因则在于我们不了解介入手段是否有效果，或者不清楚介入手段取得了积极效果还是消极效果。当从统计学显著性这个角度考虑时，这两种结果非常相似，但是在我们考虑下一步安排时，它们却会给出截然不同的建议。

线性模型

导弹的运动轨迹是一条抛物线，先上升，然后下降。在万有引力的作用下，所有的运动轨迹都会呈曲线形并接近地面，这是物理学的一个基本事实。但是，如果我们取非常短的一段并靠近观察导弹运动轨迹在肉眼看来就像一条直线，以一定的倾斜角度向上运动。越靠近观察，曲线就越接近直线。接下来是观念上的一个飞跃。牛顿说，好吧，让我们继续——把视野缩小到无限小，小到无法计量的程度，但不是零。这时候，我们研究的就不是一段很短的时间内导弹的运动轨迹了，而是某一个时点的情况。本来接近于直线的运动轨迹直接变成直线了，牛顿把这条直线的倾斜度叫作流数（fluxion），我们现在称之为导数（derivative）。牛顿发现所有的线都与直线非常接近，由此催生了“线性回归”（linear regression）这个概念。社会学经常要用到线性回归分析这种统计学技术，就像居家维修要使用螺丝刀一样。你可能认为，SAT分数高的学校，很有可能收费也高，但是我们稍做数据分析，就会发现并非如此。

流数

图中直线的倾斜角度约为28度，这意味着：如果学费真的完全取决于SAT分数，而且决定关系可由我在图中绘制的直线来表示，那么SAT分数每提高1分，与之相对应，学费就会增加28美元。如果新生的SAT平均分提高50分，就可以把新生的人均学费提高1400美元。

线性回归应用广泛，这既是一个长处，也会带来问题。我们尚未考虑正在建模的现象是否真的接近于线性，就可能会迫不及待地对其进行线性回归，但这样做肯定是不妥当的。的确，我说过，线性回归就像一把螺丝刀，但是从另一个方面看，它更像一把锯。如果未经考虑拿来就用，那么后果可能会相当可怕。

Mark Twain在小说Life on the Mississippi中写道：176年前，密西西比河在凯罗与新奥尔良之间的河段长1215英里。经过1722年的截弯取直之后，这个河段缩短为1 180英里，之后在美洲湾取直之后，缩短为1040英里。再后来，这个河段又缩短了67英里，因此，现在它的长度仅为973英里……在176年的时间里，下密西西比河缩短了31英里多。因此，我们就不难推测出，再过742年，下密西西比河将只有131英里长。到那时，凯罗与新奥尔良会连成一片，那里的人们在同一位市长与同一个市政委员会的领导下，勤勤恳恳地过着舒舒服服的日子。这就是科学的魅力，只要对事实稍加调查，我们就能生出无数的猜想。

计算积分或者进行线性回归，用计算机就能完成，但是，判断所得结果是否有意义，或者判断所采用的方法是否正确，则离不开人的智慧。我们在教授数学时，应该告诉学生如何应用人的智慧，否则，我们培养出来的学生从本质上就会与微软的Excel程序没什么两样，而且反应迟钝、漏洞百出。

3 例子：父母高，孩子不一定也高

根据Sir Francis Galton的研究，只要研究对象受到随机性的影响，就会发生回归平均值现象。不过，与遗传因素相比，随机性的影响力有多大呢？

单凭数据，Sir Francis Galton无法找出其中的玄机，因此，他必须把这些数字转变成图表的形式。后来，高尔顿回忆说：“我拿出一张白纸，用尺子和笔在上面画出坐标轴，横轴表示孩子的身高，纵轴表示父亲的身高，并标记出对应每个孩子及其父亲身高的那个点。”

回归平均值

这个直观展示数据的方法汲取了Descartes几何的精髓。解析几何要求我们把平面中的点看成一对数字，分别为横坐标和纵坐标，由此把代数和几何学紧密地联系在一起。

每对父子都对应两个数字，也就是父亲的身高和孩子的身高。我父亲的身高是73英寸，我也一样，因此我们在Sir Francis Galton的数据集中就会被记录成（73，73）。高尔顿在图中表示我们父子时，会在横纵坐标都是73的位置上画一个标记点。在高尔顿的庞大数据集中，每对父子都会在坐标图上对应一个标记点，因此，这张图上会有很多点，能够直观地显示出身高差异的变化情况。就这样，高尔顿发明了现在被我们称为scatterplot的图表类型。

在揭示两个变量之间的关系时，scatterplot可以发挥惊人的作用。随便翻开任何一种科学杂志，我们都能看到scatterplot。我们的大脑不习惯接收一列列的数字，但是特别善于在二维图表中找出规律与隐含的信息。

在某些情况下，这些规律与信息并不难发现。举个例子，假设每对父子的身高都相同，就像我的父亲和我。这种情况说明，随机性没有发挥任何作用，我们的身高完全是由遗传因素决定的。相应地，散点图中所有点的横坐标与纵坐标都相同，换言之，这些点都在方程式x=y表示的直线上。

散点图

请注意，在这条对角线的中间位置点的密度大，而两端的密度小。这是因为身高69英寸的人比身高73英寸或者64英寸的人多。

散点图

这幅图与前面的散点图不同，没有表现出构成对角线的任何趋势。如果我们集中考虑父亲身高为73英寸的那些孩子的情况，也就是散点图右半部分中的一个垂直细长条的情况（见下图），就可以看出他们孩子的身高仍然会集中在69英寸周围。这表明儿子身高的条件期望值（也就是说，在父亲身高为73英寸时儿子的平均身高）与无条件期望值（在没有任何限制条件时儿子的平均身高）相同。父亲较高的孩子由于受到回归平均值现象的影响，因此与父亲不高的孩子的身高没有区别。这是回归平均值的极致形式。

如果遗传基因不会造成身高差异，Galton画的图就会与这幅图相似。但是，高尔顿的散点图与上面两种极端情况下的数据图都不相同，而是两者中和的产物。

在这幅图中，当父亲的身高为73英寸时，儿子的平均身高是多少呢？我在图中画出了一个垂直的细长条，与这些父子的情况相对应的点就位于这个区域中。

高尔顿的散点图

从上图可以看出，在“父亲的身高接近73英寸”这个细长条中，对角线下方的点比对角线上方的点更加密集，这表明儿子的平均身高没有超过父亲。同时，这些点大多位于男性平均身高（69英寸）的上方，儿子们的平均身高略低于72英寸，也就是说超过男性的平均身高，但没有他们的父亲高。所以，我们看到的这幅图表现出回归平均值的特征。

Sir Francis Galton很快发现，他的这幅表现遗传因素与随机性相互作用的scatterplot中形成了某种几何图形。这个几何图形没有表现出任何随机性，而是一个近似椭圆的形状，其中心位置对应的就是父母与孩子正好都是平均身高的那个点。

Sir Francis Galton发现自己绘制的scatterplot表

Sir Francis Galton发现自己绘制的scatterplot表现出惊人的规律性：所有等值线都是椭圆形，一个包含另一个，且中心都在同一个点上。这幅图就像一座山峰的标准等高线图，最高点是父亲与儿子平均身高所对应的点，而这两个身高在高尔顿的散点图中出现的次数最多。其实，这座山峰就相当于二元正态分布。

如果像第二幅scatterplot那样，儿子的身高与父母的身高没有任何相关性，这些椭圆形就会变成圆形，散点图的形状看上去也大致呈圆形。如果像第一幅scatterplot那样，儿子的身高不受任何随机性的影响，而完全由遗传基因决定，这些点就会沿着一条对角线排列，我们可以把它看成是一个被压扁了的椭圆形。在这两种极端情况之间，有胖瘦程度各异的椭圆形。胖瘦程度在经典几何学中被称作椭圆形的eccentricity，可以测量父亲身高对儿子身高的影响程度。离心率高则意味着遗传因素的作用大，而回归平均值的作用小；离心率低则意味着相反情况，此时回归平均值起到决定性作用。高尔顿则把这个量叫作correlation。

4 相关性与空间几何

Sir Francis Galton提出的相关性概念对我们所处的世界具有不可估量的影响。它的影响力不仅触及统计学，而且涵盖科学活动的所有领域。关于“correlation”一词，我们首先应该了解的是“correlation并不意味着因果关系”。即使一个现象不会导致另一个现象，根据高尔顿的理解，这两个现象之间也可能存在相关性。其实，这并不是什么新发现。人们早就知道兄弟姐妹更有可能有相同的身体特征，还知道并不是因为哥哥高所以妹妹也高。但是，这个现象背后仍然暗藏着某种因果关系：父母高，在遗传因素的作用下，两个孩子也高。在后高尔顿时代，我们可以大谈特谈两个变量之间的相关性，但是对于两者之间是否存在某种因果关系（无论是直接还是间接的因果关系）却不得而知。从这个意义上讲，高尔顿的相关性概念，与名气比他大的表哥（达尔文）的伟大发现之间有某种共通之处。达尔文指出，在讨论进化时即使不带有任何目的，也可能产生研究价值，而高尔顿的研究则证明，在针对相关性开展有意义的讨论时无须关注潜在的因果关系。

Sir Francis Galton给出的相关性的原始定义存在某种局限性，仅适用于分布遵循钟形曲线定律的变量。但是，Karl Pearson 很快就对他的这个概念进行了修正，使其适用于所有变量。皮尔逊的公式里有许多平方根与比例，如果我们对Descartes的掌握没有达到驾轻就熟的程度，皮尔逊的公式就不可能对我们有所启发，因此，我在这里就不列出这个公式了，大家也无须查阅相关资料。不过，Karl Pearson 的公式有一个非常简单的几何描述方法。从Descartes开始，数学家就热衷于在现实世界的代数描述与几何描述之间来回切换。代数的优势在于形式严谨，易于输入电脑；而借助几何学，我们则可以凭直觉处理眼前的难题，当拥有绘图能力时，这个优势会更加明显。有很多数学知识我无法真正地理解，但是，一旦了解了它的几何含义之后，我就会豁然开朗。

加州城市1月份平均气温的表格

那么，在几何学中，相关性指的是什么呢？为方便理解，我们回过头，再次研究2011年1月和2012年1月10个加州城市1月份平均气温的表格。我们发现，2011年的气温与2012年的气温之间存在非常强的正相关性，根据Pearson的公式，该相关系数是0.989。

在研究两个不同年份气温测量数据之间的关系时，我们可以把表中各数据项减去相同的量，这个操作不会影响结果。如果2011年的气温与2012年的气温之间存在相关性，那么它与“2012年的气温+5华氏度”之间也必然存在相关性。我们还可以换一种方法来考虑这个问题：如果我们把图中所有的点都向上移动5英寸，那么高尔顿的椭圆形不会改变，发生改变的只是它的位置。事实证明，如果把这些气温值加上或减去一个相同的量，将更有利于我们的分析研究。比如，在这个案例中，两列数值分别减去2011年与2012年的气温平均值，我们就会得到下表：

气温平均值

在这张表中，数据为负值时表示该城市气温较低，如特拉基；数据为正值时表示气温较高，如圣迭戈。

接下来的步骤非常关键。记录2011年1月气温情况的那一列有10个数字，因此这一列就是一串数字，它还是一个点。这是怎么回事呢？这得归功于笛卡儿。我们可以把两个数字的组合（x,y）看成平面上的一个点，x自原点向右，y自原点向上，并画出一个从原点指向点（x,y）的短箭头，这个箭头叫作“向量”（vector）。同样，三维空间中的点可以表示成三个数字的组合（x， y， z）。只要我们不因循守旧，敢于创新，就能有所突破。4个数字的组合可以看成是四维空间中的点，那么，表中表示加州各地气温情况的那10个数字，就是十维空间中的点。不过，更好的做法是把它看成一个十维向量。

此时，大家有足够的理由提出疑问：我应该怎么考虑这个十维向量？它到底是什么样子？

十维向量的样子如下图所示：

十维向量

接下来我们继续讨论气温问题。表中有两列数据，每列都是一个十维向量，如下图所示：

十维向量

这两个向量的方向大致相同，表明这两列数据实际上区别不大。我们已经知道，2011年最冷的城市在2012年也非常冷，气温高的城市情况亦大致如此。

这就是用几何语言表述的皮尔逊公式，两个变量之间的相关性是由这两个向量之间的夹角决定的。如果用三角学来描述，相关性就是夹角的余弦。至于你是否记得余弦的含义，这并不重要，你只需知道0度角（即两个向量指向相同方向）的余弦为1，180度角（两个向量指向相反方向）的余弦为–1。如果两个向量的夹角为锐角（小于90度的角），那么它们之间存在正相关关系；如果两个向量的夹角大于90度，即为钝角，那么它们之间存在负相关关系。笼统地讲，当夹角为锐角时，两个向量“指向相同方向”；而当夹角为钝角时，两个向量会“指向相反方向”。

如果夹角既不是锐角也不是钝角，而是直角，那么这两个变量之间不存在相关性。在几何学中，我们把夹角为直角的两个向量叫作“垂直”（perpendicular）或“正交”（orthogonal）向量。数学家以及那些对三角学情有独钟的人经常延伸“orthogonal”这个词的内涵，用它来表示某个东西与手头上的东西没有任何关系。例如，“你可能以为你深受欢迎的原因与你的数学技能有关，但是，根据我的经验，这两者之间没有任何‘交集’（orthogonal）”。慢慢地，为三角学痴迷者们所青睐的这种用法就变成了人们广泛使用的语言。

到20世纪50年代初，英国与美国开展的一些大型研究表明，吸烟与肺癌之间存在非常显著的相关关系。在非吸烟者当中，肺癌依然十分少见，但是对吸烟者而言，患肺癌的风险却非常高。而且，烟瘾越大，这种相关性就越明显。在这649名肺癌患者当中，有168人每天吸烟超过25支。数据表明肺癌与吸烟之间存在相关性。尽管两者之间不是严格的决定性关系（有的人吸了很多烟，也没有患肺癌，而有些不吸烟的人却患有肺癌），但它们也不是两个相互独立的现象。但是确认相关性的存在与解释其存在的原因不是一回事。Fisher就对香烟–肺癌的相关性表示了强烈的怀疑。他认为，虽然肺癌导致吸烟这一说法似乎绝不可能是正确的，但要完全推翻它也不容易。陶哲轩指出：在大众心目中，离群索居（还可能有点儿疯狂）的天才往往对文献资料等前人智慧的结晶视而不见，但他们总能获得神秘的灵感（有时候是在经过痛苦的思考之后突然获得的），在所有专家都一筹莫展的时候，为某个问题提供独创性的解决方法，令所有人大吃一惊。这样的人物形象的确充满传奇色彩，但至少在现代数学领域是不存在的。虽然我们的确有很多惊人的数学结论和深刻的数学定理，但它们都是众多杰出的数学家几年、几十年甚至几百年不懈努力的结果。理解层面上的每次突破的确都很不平凡，有些甚至出人意料，但这些突破都是建立在前人努力的基础之上，而不是凭空出现的全新成果……在现实中，人们在直觉、文献的指引下，通过刻苦钻研，再加上一点儿运气，在数学研究过程中不断取得进展。