两条信息之间相关性的新工具:互信息(相关信息)。
有一句话,相关不是因果,其实世界上大多数联系都是 相关联系,而非因果联系。相关的联系可以强,可以弱,但弱相关其实没有什么意义,我们需要寻找和利用的是强相关性 。
但是,要知道相关程度的大小,就需要有一个定量衡量它的指标,那就是互信息。利用互信息我们可以找到那些靠谱的信号,过滤掉那些不大灵的信息。
你可能听说过有些炒股的人迷信一种所谓的“裙摆指数”,它在美国有一个更通俗的名字叫做“牛市与裸露的大腿”。
19世纪,宾州大学的经济学教授乔治·泰勒讲:“当经济增长时,女人会穿短裙,因为她们要炫耀里面的长丝袜;反之,当经济不景气时,女人买不起丝袜,只好把裙边放长,来掩饰没有穿长丝袜的窘迫。”后来一位美国人(埃拉·考伯雷)宣称,他发现,道琼斯综合指数的升降真的经常与妇女裙摆的长度有关联,妇女的裙摆短,恰恰是指数上升时,反之,则指数一定趋于下降。当然,投资人对此也有一番自己的解释:当股市繁荣时,投资者有了钱就要去亲近女性,于是女性的服饰自然也会随着男人的态度而更富有性感;而当股市反转之后,投资人便对女性没了兴趣。当然这些说法听起来都是自圆其说。于是,人们找到一些证据来证实它,比如:1900年,股市低迷,那时候美国女士的裙子也非常长,显得死板而无趣。1928年,也就是大萧条的前一年,女性的裙摆迅速上移。而1930年的大萧条开始后,却流行长裙子了。最神奇的是1987年,本来流行的是超短裙,但是当10月来到的时候,短裙忽然不流行了,随后不久美国股市就出现了“黑色星期一”,道琼斯指数暴跌了23%。接下来的问题是,你是否该根据街上女生穿的裙子长短来购买或者抛售股票呢?有些人确实在这么做,但是我们知道今天没有听说靠这条信息9在股市上发财的人。
著名经济学家马尔基尔在他的《漫步华尔街》一书中详细剖析了这则传说,他认为这个牵强的相关性是毫无根据的。虽然总有人能举出证实这种指数的例子,但也有人能举出大量的反例。那么裙摆的高度和股票的涨跌到底有没有关系?这显然不能通过举例子来证明,就需要有一个正确的数学模型,好好计算一下了。在信息论中有一个互信息的公式可以算出来这个答案。我们假设裙子长度这个随机变量是X,股市涨跌为Y,然后设定好时间等参数,带入互信息的公式,就可以了,以下是公式,以及详细的推导过程,其实很简单:
推导过程: 我们知道女生的裙摆长度是随机变量,我们假定为X。如果裙子的长度在膝盖处,X=0;如果高于膝盖一寸,X=1;高于两寸,X=2;如果比膝盖长出一寸,X=-1;长出两寸,X=-2,等等。 股市的涨跌幅度Y也是一个随机变量,我们假定涨1%,Y=1;涨2%,Y=2;如果下跌,Y就是负的;如果不涨不跌,Y就是0。如果我们把过去的100年以每一个月作为一个单位,大约能得到1200个样点,这样就能估算出X和Y的概率分布P(X)和P(Y)。如果女生穿短裙,而股票也上涨,这两件事情同时发生了,它的概率就是P(XY),被称为“这两个随机变量的联合概率分布”。
这个公式是怎么用的呢?假如裙摆比膝盖高一寸的概率是10%,股票某天上涨1%的概率也是10%,如果这两件事同时发生的概率是1%,说明这两件事毫不相干,用上面的公式计算,互信息就得到0。反之如果这两件事情一同发生的概率有5%,就说明它们高度相关。代入公式中算下来,它们的互信息就非常大。
大家不必太关注这个公式本身,记住这样一个结论就可以了,就是如果X和Y基本上无关,它们的计算结果,也就是互信息就近乎为 零。如果相关,它们的互信息就非常大,你可以把互信息简单地理解为相关性。
经过计算,穿短裙这件事和股票上涨之间的互信息近乎为零。马尔基尔等不少人还用不同的模型算过它们的互信息,得到的结论基本上是“无法根据是否穿短裙来判断未来股票涨跌”。
世界上很多事情彼此相关,如果它们之间有确定的 因果关系,那样的信息就是等价的。比如从A一定能推导出B,那么知道了A就等同于知道了B。但是世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的 相互关联的关系,比如A发生后,B发生的可能性就增加,这就是相关性。
如果相关性比较强,我们在得到信息A之后,就可以消除关于B的不确定性。但是,如果A和B之间的相关性较弱,那种联系就没有意义。
而互信息则给出了一种量化度量各种不同信息相关性的方法。在历史上,很多信息是无法直接衡量的,甚至找不到完全等价的信息,只能依靠不同信息的相关性猜测。
比如欧洲人对地球年龄的估算历程就是如此。在不知道放射性同位素之前,很难判断一块岩石到底有300万年的历史,还是3000万年的,随便给你两块石头,你是看不出它们形成的时间早晚的。1795年,当时正值英国工业革命时期,到处是建设工地,在挖掘一条新运河时,地质学家史密斯发现每一层岩层都有属于本岩层特有的化石。而化石中的动植物,是可以比较年代先后的,比如像三叶虫这样简单的动物,以及一些有贝壳的软体动物,出现得就较早,爬行类和哺乳类脊椎动物出现得就较晚。于是史密斯提出了“化石层序律”,就把岩石的时间与生物演化阶段联系起来。今天我们说到地质年代时会说诸如寒武纪、奥陶纪、三叠纪等名词,那些词原本都是用来描述古生物出现年代的名词。
“化石层序律”的本质,其实就是反映地质变化和生物进化这两种相关信息的互信息。当然,正如我们前面讲的,互信息有一个变化的范围,并不是非零即一的绝对度量。它并不能确定因果关系,因此我们只能用它来说A这件事发生后,B也同时发生的可能性的大小。
在众多的古生物门类中,有些门类特征显著,而且只出现在一个地质时代,它们就可以作为一个特定地质年代的标志,比如三叶虫,这种化石就被科学家们称作“标准化石”,也就是它们的出现和相应的地质年代之间的互信息很大。但是,另一类古生物,比如舌形贝,从寒武纪就已出现,今天依然在海洋中很常见。而且在几亿年的时间跨度里,它们的形态和内部结构,几乎没有显著变化,它们和地质年代的互信息就非常小了。如果你在一个地质断层中发现了它们的化石,得不出那里是在寒武纪形成这样的结论。这就如同你看到街上的女生开始穿超短裙,并不意味着股票会上涨。
使用互信息还要注意的一点就是不要把因果关系搞反了,即使可以由A得到B,但是B未必能够反过来确定A。
我们听说过“乌鸦叫,丧事到”这种说法。它有没有道理呢?其实如果计算一下乌鸦出现这个随机事件和附近可能要死去的老人,多少是有点相关的。但这里面的因果关系,事实上不是因为乌鸦来了,所以人死了。而是人老了之后,特别是快死的时候,会发出特殊的腐臭味,吸引来了嗅觉非常灵敏的腐食动物乌鸦。1986年,美国国立卫生研究所(NIH)的网站专门登了一篇《生理学和行为学》杂志(Physiology & Behavior)上的研究文章,证明乌鸦的嗅觉是极为敏感的,它们可以找到埋藏的食物。
很强的互信息总让人想到因果关系,但是谁是因,谁是果,都要花点心思搞清楚。
比如盖茨和扎克伯格退学创业的事情,今天很多人都拿这两件事情说事,鼓励大学生们退学。但事实却是,这两个人先是证明了自己初期的创业已经成功了,然后才退学的,因此大部分媒体把因果关系搞反了。如果我们进一步把这件事放入大量的退学创业案例中作统计,把创业成功这件事看成一个随机事件X,把退学看成另一个随机事件Y,你就会发现它们的互信息几乎为零。
相反,高学历和高收入这两件事,互信息却非常高。
信息论并非是关于一条单一信息的理论,而是对大量信息整体规律性的描述。相关性差的两件事虽然有可能发生,但是放到大的时空中,就会发现这纯属偶然了。而信息论则是给我们一个科学方法,能够从整体上估计那些看似无关的事件一同发生的可能性到底有多大。这让我们能够趋利避害。那么,如何找出事物之间更高的相关性呢?
接下来我们又要讲到专业人士做事情的方式了,他们比业余的人普遍做得好,除了发挥稳定,能够重复成功等因素外,还一个原因就是他们有很多业余人士没有的工具。比如在风险投资方面,正规的基金会有一些研究人员,研究具有哪一些特质的创业者成功的可能性更大,第一次创业成功和第二次再成功之间的互信息,以及受雇于某些大公司和创业成功的互信息等等。然后,他们会有意识地往特定的群体中进行投资倾斜。而业余做天使投资的个人,常常只能凭感觉作判断了。
要点总结:
我们介绍了量化度量信息相关性的工具:互信息,虽然不相关的事情有时也会一同出现,但是只有互信息高的事情彼此才有较强的相关性。
我们指出了相关性和等价性的区别,以及不要在利用互信息时把两件强相关的事情之间的因果顺序颠倒了。
我们说明了专业人士可能会因为掌握专业工具,做得比业余人士要好。
网友评论