数据真相你能看到么?

作者: 萧小泥 | 来源:发表于2018-08-07 14:37 被阅读30次

    现今社交媒体上各种文章和号称数据分析扑面而来,但是同时也充斥着各种的欺骗和误导,似乎越是惊人的结论,越是标题骇人越能够引发人们的观看,因此更加促使人们为了增加阅读量,不去深究数据的真相,而为了流量。
    例如最近朋友圈刷屏的《北极圈罕见32摄氏度高温,我们有生之年,或许再也看不到北极熊了》,刚看到此文的时候,我看大多数人都是呼吁要重视环境保护,从我做起,少用空调,减少资源浪费,这倒是非常好的环境保护宣传文了,所以其实对于这文章的数据来源我有些疑惑,但也没有去提醒发圈的人。
    果然没多久,就有人真的进行了数据调查,然后探究数据的真实性,写出了一篇《真相:北极熊的数量稳中有升,今年夏天并不难熬》。但是事实是这文的阅读量和转发率大大低于前文。这恐怕就是因为,当人们心理已经认定一个事实的时候,就会自动忽略掉反对的声音了。
    但我今天想说的不是对于这两篇文的传播反差性,而是看到后文中的一句话“Be compassionate. But also be informed. 富有同理心,又心如明镜”觉得非常有道理,就是面对信息或者数据时,真的要有一颗清醒理智的内心,多探寻为什么?真的吗?或许就会给你自己的某些行为有正确的指南。
    《揭开数据真相》似乎就是为了达到这个目的的一本书,这本书的副标题是——从小白到数据分析达人,有点过于自夸了,这本书适合给小白看,但是到数据分析达人明显还有很长的不止这一本书的路需要走。
    书的第一作者Edward Zaccaro 是一个数学老师,也是热衷于研究天才儿童数学教育的教育传播者和研究者,写了很多本关于数学的书。是个致力于用简单有趣的方法来做数学教育的实践者。事实上这本书的内容就非常通俗有趣,例子解读的也很幽默,因此也被我10岁的闺女拿去毫无障碍的读完了。
    全书分为十六章,几乎全部都是例子,各种各样数据欺骗的例子,当然都是美国的例子居多,大部分是讲了数据如何被误用,被故意曲解以及被别有用心的摘取而符合利益方的要求。特别是在医疗行业里,数据的歪曲、操纵造成了数百万人丧命。但同时合理使用统计方法,又能够帮助医疗机构减少过失死亡的发生。能够更准确的预测葡萄酒的质量,准确率高于专业品酒师;能够帮助棒球队教练更科学的训练自己的队员;能够帮助急诊室医生更好的进行判断。所以说数学统计的力量真是巨大,并且具备一定的统计技术也是非常必要的。
    关于数据分析一般来说大家都知道应该合理使用样本数量,不能以偏概全,要诚实统计。但其实还有些需要注意的:

    1. 均值、中位数和众数的使用
      我们通常都喜欢使用均值,特别是每年都会有各个城市的年薪收入值统计数据,很多没有收入增长的人面对着数据,都感觉是被平均的,这就是因为少数收入高者,因为收入远大于其余大众,因此使用均值时,个别高收入人群把平均收入拔高好多,导致明明没有感觉自己收入增加的人们觉得奇怪,同时也容易造成高收入的假象。作者举得例子很容易理解,就是假设你们楼住了100人,年收入五万元,人均也就是5万元,突然有一天影视明星范水水搬到了你们楼,范水水年收入1570万元,则这栋楼的年收入均值一下变成了20.5万元,其实大家伙明明都还是苦哈哈的一年5万块,但是数据上显示大家似乎都是高收入人群了。
      因此当有这样的个别高收入人群时,就要使用中位数来反映平均收入。这让我想起最近的一篇关于“拼多多”的一篇文里面就是将收入数据使用了中位数,全国居民人均可支配收入中位数是22408元,也就是每月不足2千元可支配收入,确实离发达国家差距还是很大的。所以拼多多盛行真是有道理的。
    2. 奇闻轶事来当证据
      这个什么意思呢,就是我们常常可以听到这样的事,例如某某某吃了某某药,一个月内成功减肥20斤 ,某某戴了磁手环后改善了腕部疼痛问题。就是一些售卖者通常喜欢拿来这样的例子来证明药物的有效,或者商品的有效。轶事肯定是不等同于证据,证明药物疗效,必定需要数千、数万人服用的效果来证明。但是为什么人们都只关注那些个别的有效说法,而不去关注到底有多少人戴了根本没有用呢?为什么只是听说了某人朋友的朋友的吃药减肥成功了的传言就也相信了这个药的疗效呢?因为这种消息通常传播的比较快,并且在传播过程中会有些偏差,而这种偏差更会加剧事件的不真实性。作者提出了一个鉴别轶事的方法:

    当试图判断一段轶事是否可信时,千万别忘记考虑讲述这段轶事的人是否能获得某种利益(例如钱、关注度),记住这一点,这很重要。

    1. 因果关系 逻辑一定要清晰和正确
      我们常常遇到,错把相关当做因果的逻辑分析。
    • 例如觉得游泳会塑型,保持好的身材,例如游泳运动员身材都那么好,殊不知这只是因为身材比例好的人通常能游出好成绩,并且被选拔去参加游泳队。
    • 例如有不少文章宣称,学习音乐能够促进智力发育,让孩子有更好的成绩,其实有可能是因为学习音乐的家庭更加能够提供好的教育环境和教育投入给孩子。
    • 又例如有研究证明已婚人士比未婚人士更幸福,但事实可能是因为不幸福的人大多选择独身。
      诸如此类的例子很多,总之遇到此类事件,我们可能更多的要问自己,是不是真的因果,而只是相关呢?
    1. 确认性偏差
      什么叫做确认性偏差呢?我感觉就像是心理影响的一个现象,就是往往你能够记住并且认为的事实是你希望或者愿望如此。还是继续举例子:
    • 例如你怀孕了之后,你就会发觉,孕妇怎么那么多呢?其实就是因为你注意到了孕妇,而以前你没注意到而已。又或者你买了一辆白色车之后,发觉满大街都是白色的车,那也是因为你关注点转移到了白色车身上。
    • 书中举得一本名叫《秘密》的畅销书的例子,这本书我也看了,不过只是看了一部分就放弃了,因为作为唯物主义者实在是有些不能认同书中的说法。书中的一个主要概念是“吸引定律”,它指出只要你将注意力集中在生活中想要的东西上,宇宙最终就会根据你的愿望重新调整。当然我觉得这书作为心灵鸡汤,抚慰一下负能量的人是非常有用的。这本书走红的原因就是确认性偏差和分子型统计,分子型统计就是说忽略分母的巨大,而只关注偶然发生的事件,便认为是大概率事件,这就像是忽略无个人买了无数次彩票浪费的钱,而只关注了一次中奖的事件。

    一旦人类接受了一个观点,在理解事物时就会搜集对这个观点予以确认的事例,相反事例有可能数量更多、力度更大,然而这些事例或者不被注意,或者遭到排斥,人类如此这般的目的在于保持这个观点不被撼动——哲学家弗兰西斯·培根(1620年)

    书中的讲的还很多,还有一个“稻草人论证”我也觉得很有意思,而且也在现实生活中经常发生,但是我想这个更像是一种辩论办法,或者我们沟通中常常遇到的转移话题问题。更多的有趣点还是留待感兴趣的你看这本书去发掘吧,反正我觉得我写的已经够多了,打算结尾了!

    相关文章

      网友评论

        本文标题:数据真相你能看到么?

        本文链接:https://www.haomeiwen.com/subject/tjxwvftx.html