这节课,作者指出,孤立的数据没有任何意义,只有对数据赋予背景,才会有实际意义。
这个结论,我是能够理解的。昨天儿子学校组织了体检,老师发来体检单照片,上面有儿子的身高,121.6厘米。
孤立的看这个身高,什么也不能说明。如果把全班同学的身高数据做个统计,排排序,那就能够知道儿子在同学当中身高是高还是低,是不是过了中位数。
如果查一下儿童年龄与身高的关系,就能够知道儿子的身高,是不是符合健康标准。
这里体现出一个问题。虽然是一个身高数据,如果想看班级内比较情况,那就统计班内同学身高,如果想了解是否符合健康标准,那就要去跟国家标准去比较。
也就是说,不同的背景,会让同一个数据体现出来不同的含义,甚至完全相反的含义。作者也明确指出了这一点。
在不同的视角下,数据可以有无限多的背景,也就有无限多的意义。那么,怎么通过背景来理解数据的意义呢?
虽然作者没有用黑体字提请注意,但是这段话,我摘录过来后必须用上黑体字,因为它引起了我格外的注意。
我想起了这么两句话:
历史是任人打扮的小姑娘。
一切历史都是当代史。
在这个基础上,我不得不想到,数据,是不是更容易成为任人打扮的小姑娘呢?为了支持某些说法,对同样的数据,赋予不同的,经过精心选择的背景,以此来混淆视听呢?恐怕不仅仅是我的担心,因为我接着就看到了下面的表述。
(作者举了一个例子,是得到的另一位作者顾衡解析《水俣病》这本书时曾经引用的数据:)
当时,12500日元正好等于一盎司黄金,用金价折算的话,相当于今天的人民币11600元。这样,你对这笔赔偿是多还是少,就有了自己的判断吧。
这里面有两个表示时间点的词,引起了我的注意,一个是表述12500日元赔偿时间的“当时”,一个是通过金价折算人民币11600元的时间“今天”。
我认为,“当时”这个表述,本身就缺少数据思维,如果指明具体是哪一年,要比“当时”这个词好的多。另外,用今天的比价进行折算,这本身就很没有道理。应该也用“当时”的比价来折算更为合理。
另外一个疑惑,就算都用了“当时”,通过金价来比较,表面上似乎很有道理,其实问题也很大。
为了确认作者引文的准确性,我专门查了下,顾衡的原文如下(得到里面查的):
几千万几百万的,听着吓人,但是因为是日元,其实没几个钱。分到人头上,人均才12500日元(当时12500日元正好等于一盎司黄金,用金价折算的话,这笔钱相当于今天人民币11600元)。
注意,上一段黑体字里面的括号内容,也都是原文的内容。
对于12500日元这个数字,究竟该赋予怎样的背景,才能更客观的体现出来当时那笔赔偿金,对被赔偿者的帮助呢?
赔偿金,最终发放对象是那些贫苦的渔民,他们拿到这笔钱,大概率不会去购买黄金一类不实用的东西,最大的可能,是购买生活必需品,比如大米,黄豆什么的。
基于这个认识,如果能够查到那个“当时”(是1956年)12500日元在当地能买到多少斤大米黄豆,更有说服力。
我这么分析,并不是想说明这个具体的数据究竟应该怎么赋予背景,而是以此来确认,作者提出的“同一个数据被赋予不同背景,会得到不同结论”这个说法,实在是太重要了。
我们在日常生活里,经常看到各种各样的数据分析,这时候,就不单纯是看对方怎么分析数据,更要注意分析数据的目的,究竟是想支持什么样的结论。然后反过来再想想,才会更接近数据的本质。这种数据分析者的“主观偏差”,是一定要格外注意的。
作为学习者,太难了啊,哈哈。
网友评论