《魔鬼数学》第四部分“回归”读书笔记

作者: 吴玉昆 | 来源:发表于2017-10-14 19:39 被阅读24次

《魔鬼数学》第四部分“回归”读书笔记
《魔鬼数学》第二章推理
魔鬼数学读书笔记
ML03-逻辑回归（下部分）
ML02-逻辑回归（上部分）
读书笔记：魔鬼数学1
读书笔记：魔鬼数学3
读书笔记：魔鬼数学2
《魔鬼数学》
魔鬼数学

作者: [美] 乔丹•艾伦伯格（Jordan Ellenberg）
出版社: 中信出版集团
副标题: 大数据时代，数学思维的力量
原作名: How Not to Be Wrong: The Power of Mathematical Thinking
译者: 胡小锐

第四部分关键词：回归平均值，随机性，定性和定量分析

第14章举例介绍了什么是回归现象，强调“只要研究对象受到随机性的影响，就会产生回归平均值现象”。第15章则定性分析了这种随机性的影响，如何通过图形直观展现变量之间的相关性，介绍了散点图、等高线、二元正态分布、离心率/相关系数。第16章则强调了相关关系不同于因果关系，比如我们知道肺癌和吸烟存在相关性，却很难证明“因为吸烟所以肺癌”的因果关系。”

第14章我们为什么无法拒绝平庸

本章定性介绍了几种回归现象：
（1）西克里斯研究企业经营业绩的好坏变化情况，最终发现大部分优秀的企业都会变平庸，西克里斯认为回归平庸是竞争的结果。十年之后，霍林特强调这个现象是纯粹的数学现象，即回归平均值现象，和竞争没有关系。
（2）高尔基认为，人的能力是遗传而来。虽然这个结论得到很多人的抵制，至少在更容易量化的人类特征例如身高方面，这个现象更明显。高尔基通过研究人的身高，发现了“回归平均值的现象”。如果父母都很高，他的孩子身高也很高（高于孩子社会平均身高），但会低于父母的平均身高，如果父母的都很矮，孩子的身高也会比较矮（低于孩子社会平均身高，但是会高于父母的平均身高。
回归是一个数学问题
事实上，生活中随时间产生起伏变化的任何东西，几乎都受到回归效应的影响。

我感觉作者犯了一个错误，作者强调回归平庸是一种数学问题，所以从竞争等角度解释都是不对的。但是数学现象不代表无法解释，既可以从数学角度解释，也可以从经济的角度去反映这种解释过程。作者认为西克里斯的解释是枉费心机，但是我觉得竞争和调控造成波动性，就可以产生回归现象。
备注：（1）企业都会变平庸的例子，总感觉有些过时了，二十年代的企业管理策略不完善可能导致企业总会被某些糟糕的问题困住，但是进入二十一世纪，百年企业越来越多，很多跨国企业都没有破产的可能性了，这其中就有竞争力、资源、先发优势等因素。
备注：（2）回归平均值现象，类似于一种自然作用，但是人的干预能力越来越强，上面说的优秀企业更容易一直优秀，对个人来说，良好的教育也能让孩子摆脱回归平均值的现象，所以高等教育父母的孩子更容易接受良好的教育，这就涉及到充分意识的层面了。备注：（3）成功也受到回归的影响，因为成功受到”天赋、运气“等难以控制的因素的影响。所以超常发挥的选手容易在下一次比赛中发挥变差，因为他的发挥趋向于他的平均水平。从这个角度讲，一个人的水平越来越高，也是他控制能力越来越强的表现，他能把别人看起来波动性的影响因素变成可控的因素。

第15章父母高，孩子不一定高

如何更直观的表达变量之间的相关性程度，即回归程度，或随机性因素的作用。
高尔基发明了散点图，散点图的分布情况可以直观的反映x 和y 两个变量的对应关系。散点的形状可以反映数据的关系，比如圆形（无相关性），椭圆形（存在相关性，离心率反映相关性大小），集中在对角线直线上（完全相关，相关系数=1）。
下图是父亲的身高和儿子的身高的散点图，散点大致形成一个椭圆，说明两者存在相关性。这个散点图也能反映身高的回归现象，即更高的父亲的儿子的身高也高于平均值，但低于父亲身高；更矮的父亲的儿子的身高也低于平均值，但是高于父亲的身高。
[图片上传中。。。（2）]
上图的散点形成一个椭圆形，椭圆形的胖瘦程度在经典几何学中被称作椭圆形的“离心率”（ eccentricity ）。
高尔顿则把这个量叫作“相关系数”（ correlation ），这个概念一直被沿用至今。当高尔顿的椭圆形接近于圆形时，相关系数接近零；当椭圆形很扁并且它的轴沿着东北 — 西南方向延伸，相关系数就接近于 1 。
高尔顿很快发现，相关系数的应用并不仅限于遗传研究领域，只要两个量彼此之间可能有关系，就可以用相关系数来分析。

贝蒂荣人身测试法的效果和数据相关性。

不同于现在的指纹识别，DNA识别甚至人脸识别（从相关性的角度看，人脸识别都选择了哪些关键参数？），19世纪的量化方法是贝蒂荣人身测试法，通过收集每个犯罪分子的一系列身体特征，比如身高、肘长等，从而建立罪犯的数据库，方便警方从数据库中匹配犯罪嫌疑分子。
这儿要强调的是如何才能用最少的身体特征获得最好的人身识别效果，关键就是多个人体特征之间是否存在相关性。
最有效的测量数据应该与其余各项数据都没有相关性，而有相关性的数据可以通过高尔顿收集的大量人体测量数据计算出来。
我们以为测量了 5 种数据，但是，如果肘长与手指长度这两个数据项所包含的信息一模一样，那么实际上测得的数据仅有 4 种。
存在相关关系的测量数据越多，有效类别的数量就越少，贝蒂荣人身测定法的效果就越差。
测量数据间的相关性越强，贝蒂荣记录卡包含的信息量（按照香农的理解）就越少。

我们生活的环境成了数字化信息的世界，相关性会使有效信息量减少的理念也成为最核心的组织原则。
数据的相关性，让数字压缩技术成为可能。

wyk总结：数据包含的信息量多少，受到数据之间的相关性的影响。相关性越大，真实信息量就越少。信息时代的信息传递，如何在信息的传递效率和准确性之间获得最优，就涉及到数据压缩技术和数据冗余技术。

第16章因为患了肺癌你才吸烟的

两个变量怎样才算具有相关性？不同于简单的2>1，这儿的两个变量受到随机性的影响，所以都不是唯一值，比如比较“中国人的身高与日本人的身高”，这儿的关键就是“显著性检验“，本书这儿没有展开介绍。
证明两个因素之间存在相关性，却未必很容易证明为什么存在这种相关性。比如肺癌和吸烟存在相关性，我们却很难证明“因为吸烟所以得肺癌”，我们甚至无非否定是否是“因为患了肺癌才吸烟的”。

《魔鬼数学》第四部分“回归”读书笔记
作者: [美] 乔丹•艾伦伯格（Jordan Ellenberg）出版社: 中信出版集团副标题: 大数据时代，数学...
《魔鬼数学》第二章推理
《魔鬼数学》第二部分推理读书笔记 – Zero从wordpress复制过来，无法现实标红文字，需要请参考以上链...
魔鬼数学读书笔记
这本书是Jordan Ellenberg，美国数学家，毕业于哈佛大学的博士，一个胖子写的。以前就听过，但是总觉得这...
ML03-逻辑回归（下部分）
本文主题-逻辑回归（下部分）：逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...
ML02-逻辑回归（上部分）
本文主题-逻辑回归（上部分）：逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...
读书笔记：魔鬼数学1
数学是一门让很多人头疼不已的科目，抽象的表达，繁杂的公式都让人云里雾里。也有人鄙夷数学，认为我买个菜还得会...
读书笔记：魔鬼数学3
统计与推理是日常对数据与现象进行归纳总结从而得出结论的手段。但即使采用科学的统计方法，可能也会得出错误的结论。零...
读书笔记：魔鬼数学2
看完了第一部分，收获不多。可能是讲的内容作为一个理科生来说基本都是显而易见的东西，包括非线性，极限，概率大数，...
《魔鬼数学》
作者：乔丹艾伦伯格（威斯康星大学教授）本书的主要内容：数学是人类最重要的基础科学之一，也是生活中最有用的思维...
魔鬼数学
《魔鬼数学》| 秦瞳解读关于作者本书的作者乔丹·艾伦伯格，一个数学界的超级明星，任教于美国威斯康星大学数学系，...

《魔鬼数学》第四部分“回归”读书笔记

第14章我们为什么无法拒绝平庸

第15章父母高，孩子不一定高

贝蒂荣人身测试法的效果和数据相关性。

相关性的几何学定义——如何定量分析相关性

相关关系和因果关系

第16章因为患了肺癌你才吸烟的

相关文章