![](https://img.haomeiwen.com/i3096168/79bd65ceb073e886.png)
文/W先森
我在文章里曾不止一次地提到:相关不等同于因果,但一直没有很好地去解析中间的原理,今天就用这一篇文章来详细说说。
本文分了以下四个部分:
01 从一些生活中的现象,谈一下我们的认知习惯;
02 说一下相关和因果的区别
03 线性回归模型——证明相关性的最可靠办法
04 方法论部分:知道这些有啥用
02、03部分略烧脑,感觉理解困难的可以跳过。从统计学找相关性的方法中可以知道,要把两个事件之间的因果证明出来是相当困难的,甚至只是证明相关性也具备一定难度。
由此得知:
- 不要用直觉进行归因
- 纯粹的经验不等同于规律
知道了这些以后,我们该怎样去思考?
- 把一开始自以为的因果“翻来覆去”地想
- 用尽可能多的维度和样例进行推导
- 跨学科思考能更大概率地找到真正规律
- 不断更新基本假设
01 我们的认知习惯
通常,如果你感冒了,你会怎样去归因?
从直接原因出发:可能不小心在哪里着凉了?
从生活习惯出发:可能最近睡得太晚,或者吃得不太健康?
从周围环境出发:可能哪个家人/朋友/同事最近刚好生病了?
这其实算是蛮正常的推测,还有一种不正常的,就是用某件自己不喜欢的事情直接来断定的。例如我妈就特别喜欢拿一些看不顺眼的东西来归因:“看你还敢喝那么多可乐,感冒了吧?” 然而,我一周才喝那么一两罐可乐,说这会导致感冒,我肯定是不会相信的。
总而言之,在日常生活中,人们习惯用直觉去给事情归因,而这常常是没有根据,甚至是完全错误的。我们再来看几个例子:
- 检测结果表明某快餐品牌的冰跟厕所水一样脏,所以食品不安全
- 快捷酒店的枕芯很脏,所以卫生不达标
- 你焦虑,是因为你有一颗上进的心
这些命题看起来都像是“很有道理”的因果,但其实要“破”这样的说法很简单:
- 自来水不也跟厕所水一样脏,你用吗?
- 自家的枕芯用久了一样有污渍,更何况酒店的?
- 瞎扯吧,我之所以焦虑是因为穷!
请注意,这里抬杠式的回复说是把因果破掉了,但也并没有给出正确的论断。
在此,这些例子要证明的是:
在日常生活中,我们出于直觉的归因很可能(个人主观判断90%以上)都是不准确的。
那到底怎样的归因才是对的呢?
下面我们就来了解一下,统计学上对于相关和因果的概念,以及找到相关性的方法。
02 相关和因果的区别
相关和因果,在统计学上的意义如下:
相关 的意思就是A事件与B事件有关系,这里的关系可以有很多种情况,可以是 A引起B 或 B引起A;又或者说A只是其中一个原因,有可能还要凑齐其它C、D、E事件才能引起B。
因果 是相关的一种,但其要求更为严格,它比相关要携带多一个属性——必然性,也就是说,有因必有果,有A必有B。
如果A事件与B事件之间是因果关系,那么两者必然是相关的;但如果A事件与B事件之间只是相关,则两者之间未必就会存在因果。
举个例子,对水加热到100摄氏度,水就会沸腾。
A = “对水加热到100摄氏度”
B = “水会沸腾”
我们说A是因,B是果,如果放在平原地区去实验,这个结论总是正确的。但如果把水放到海拔3000米以上的高原,沸点就会变低,这时A就不能推出B了,我们要把A变成A1才行:
A1 = “对水加热至沸点(沸点随海拔上升而降低)”
B = “水会沸腾”
科学就是这样,即便是已被认定为因果的规律,也有可能要不断更新。我们从物理学史也看到同样的探索过程:从牛顿的力学三定律,到爱因斯坦的相对论,再到量子力学,再到弦论。真理总是不断地被否定,而后又重建,所以:
我们只能把在某个阶段得出,能覆盖最多相关现象的规律称之为因果。
那要统计学家们又是如何找到相关性,从而逐渐推导出因果的呢?下面,我们就来了解一下统计学的回归模型。
03 回归模型
统计学有个叫做回归模型的东西,能够证明两组数据的相关性。形象点描述就是,把两组数据丢到一个XY坐标系中表示,再用一条直线或曲线去拟合,让这条线能够通过尽可能多的点。如果这条直线可以用一个方程式来表达,那我们就说他们是线性相关的。
关于线性回归,有一个历史上知名的研究,来自于英国统计学家弗朗西斯·高尔顿提出的高尔顿定律,结论是这样的:
身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们的父母的平均身高高。
图形展示的结果如下:
![](https://img.haomeiwen.com/i3096168/9ef605e5dff5ebe0.png)
横坐标是父母的身高,纵坐标是孩子的身高。
紫色小框的数据代表:父母矮,但孩子比父母高的部分
绿色小框的数据代表:父母高,但孩子比父母矮的部分
红色的那条直线就是能够通过最多点的线,它常常是一个回归方程式。
以上面的数据为例,求出这个方程式的数学步骤如下:
01 把同一X值所对应的Y值与直线上的Y'值的差求出来,这个叫残差
02 把所有残差的平方和加起来,尝试最小化这个“残差的平方和”
03 对斜率和截距各自求偏导数
04 对一个二元一次方程组求解
类似的,我们还可以用Excel来做,方法相对简单:
01 贴上数据
02 插入散点图
03 添加元素-趋势线
04 趋势线设置-显示公式
下面就是一个睡眠数据分析的图例,因不是本文的重点,暂不展开详述。
![](https://img.haomeiwen.com/i3096168/c77bc0e64b2aee54.png)
最后,归纳一下统计学找出相关性的步骤:
首先,得收集大量样例数据;
然后,进行曲线拟合(线性回归);
最后,确定相关的类型(正/负相关,直线/曲线相关,完全/强/弱相关等)
可见,要判断事件的相关性,必须依靠数据来进行统计研究。
现在,我们得出了三个结论:
- 直觉的归因很不准确。
- 能覆盖大部分相关性的规律才算因果。
- 要判断事件的相关性,必须依靠数据来进行统计研究。
知道这些,对我们的日常生活又有什么帮助呢?
04 方法论部分
第一,谨慎归因及理性思考
留意自己或别人说话时用的表示因果的字眼:因为,所以,因此,就是,只能,肯定等等。这样做可以有效察觉到一个人的说话乃至思考的模式。
我就发现自己在回应别人时,习惯用“所以”开头,但实际上这里面根本没有什么因果关系,那只是我的一种行为模式——习惯去归纳和推测别人的想法。
当我们自以为找到了什么规律的时候,可以试试把因果掉转过来思考。
《人类简史》在谈种族歧视时说到,人们总是以为是某种来自生物学的差别,导致了黑人的各种“劣等人”的表现。但实际上当时的黑人之所以有那样的表现,是因为他们从来就没有得到过很好的教育,生活的环境也一直非常恶劣。
李开复在《向死而生》中也说过,如果这个病不是什么恶劣行为所带来的“果”,而是上天想要让他知道什么的“因”,那么病就不是诅咒而变成是祝福了。
第二,引入其他视角(跨学科)
正如前面的例子说到的,平原人一直以为水的沸点是100摄氏度,只到有一天遇上了高原人才知道,水的沸点会随海拔高度而变小。
跨界,跨学科,多视角,多维度,这些都是近段时间的热词,不单单因为这样的研究方法够全面,更能看到真相,还在于这样的方法更容易出现创新。
网上的听书,社群中的交友,这些都是良好的获取跨学科视角的好方法。
第三,不断更新基本假设
即便我们通过研究,实践,检验之后得出了一些结论,这些结论也仅仅是假设。
世界总是在变化,这些变化普遍存在于人和环境当中,所以这些结论都是阶段性的。我一直认为,世界本无真理,现在看来那也是一个错误的论断。如果把时间这个维度也加入进来思考的话,其实我只能够这样来表述——世界上不存在总是正确的真理,但却可以有现在最好,最管用的道理。
要如何才能不断更新自我呢?
那就是为什么今天我们都说要成为一个终身学习者原因了。
最后,说一个很久以前在报纸上读到的故事:
一块紫檀木,他生来就是要成为顶级家具的,但因为当时是冬天,他看见市场上的木炭很畅销,就要求主人把它烧成木炭。主人答应了它的请求。
不久,一位富翁找到主人,说要找檀木来造一套家具。那截已烧成木炭的檀木听到,肠子都悔青了。
一日,主人把这截烧成木炭的檀木和别的木炭一起放进火盆。自己曾是高贵的檀木,今日竟与这些普普通通的木炭为伍,想到这些,檀木不由流出了悔恨的泪水。结果,在燃烧时,檀木被泪水打湿的生命,冒出的总是青烟的叹息。被青烟呛着的主人,恼火地把那截檀木扔出了火盆。
谁能想到,一截高贵的檀木,最后连做一截木炭也不合格。
故事讲到这里就结束了,如果你把文章看到了这里,相信一定能对这个故事提出来不同的看法,请在评论区与我讨论吧。
网友评论