我们很多的判断源于信息,而数据又是信息的精确反应。
即使很多人认为,数据本身并不撒谎,所以我们可以信任数据所传递出来的信息。殊不知,其实数据也有具有明显的迷惑性,很容易把人误导到错误的结论中去。
以此次疫情期间展示的很多数据为例,来举几张反例,说明数据并不一定能代表事实。但这里要明确我们这里不下结论,只是就图说话,来探寻数据与事实之间的差异。
首先,戴口罩对于抑制病毒传播有效吗?
下面这张图广为流传,用来说明应该鼓励全民戴口罩来抑制病毒的传播。
你同意它的看法吗?
图中将一些国家和地区分为两类,戴口罩的不带口罩的,数据表明那些全民戴口罩的国家和地区,例如韩国、日本,新加坡,以及中国香港,疫情的发展都相对较为平缓,而那些不戴口罩的西方国家,例如美国,英国,德国,西班牙以及意大利等等,都经历了快速的发展。
所以这图很容易让人下结论说,全民戴口罩一定能抑制病情的发展。
可是,这忽略了更多的真相,例如中国属于全民带口罩的国家,但早期的发展与其他国家并无太大差异,欧洲有些国家也要求民众戴口罩出门,例如捷克。
另外,韩国日本新加坡的成功抗疫经验是真的因为带口罩吗?有没有可能是更好的患者密切追踪?更好的医疗体系和救治能力?更充足的检测资源?更内向的社交文化?民众更好的自我应对方案?甚至气候?温度?
事实背后的变量实际可能远不止带口罩这一项,所以我们并不能从这张图中就得出戴口罩能抑制病毒传播这一结论。至于真正的结论,我们有待更多的科学对比实验来发现,当然也超过了本文所讨论的范畴。
类似的,如果不深入加以思考,下面这两张图同样显示了一定程度上的误导性。
一张是新西兰针对确诊人员的年龄分布的统计。
看看这张图,你能得到什么结论?
从图中我们显然可以看到确诊案例中20到29岁的年轻人是占最大比例的。那么我们能从中得到病毒更偏好感染年轻人这个结论吗?
虽然得出这个结论很诱惑,但我们也要慎重。
例如是否还很多其他未考虑的问题:
年轻人口占社会总人口的比例有多少?
年轻人病例多是因为他们更易感呢还是因为他们的生活方式更加活跃?例如,海外的旅行更多,朋友的聚会更多,生活的圈子更复杂?接触的人员更不确定?
这些都是背后的变量,所以我们单凭这张图,同样不能得到年轻人更易感的结论。
无独有偶,美国统计的数据显示,非洲裔美国人的确诊和死亡数据都显著地高于其他人种,例如在路易安娜州,仅占全州人口1/3的黑人在死亡数据上却占到了70%:
In Illinois: 43% of people who have died from the disease and 28% of those who have tested positive are African-Americans, a group that makes up just 15% of the state’s population.
In Michigan:account for a third of positive tests, represent 40% of deaths in that state even though they make up 14% of the population.
In Louisiana, about 70% of the people who have died are black, though only a third of that state’s population is.
那是因为病毒更中意非洲裔美国人或者是黑色人种吗?
显然也不能下这个结论,背后的原因依然可以深究。
例如他们可能更少有健康保险,更多伴有其他基础疾病?他们可能更多地使用公共交通?更可能生活在大密度的出租屋中?更多地从事不能远程上班的工种?
总体来说,就是更频繁的人员接触?
所以,综上所述,尽管我们需要数据来支持我们做判断,但我们也应当深刻理解数据背后的处理逻辑,以及事情真正的因果关系。
在分析数据时,也要关心背后的取样和统计方法,不能预设立场。
有时候,因为数据而导致的“精确的错”,可能比没有数据而依靠常识而做出的“大概的对",造成的危害更加严重。
网友评论