这星期,一条关于“平均工资”的报告,被顶上了热搜。
报告显示:春节后招聘市场很火,平均薪资高达6014元。上海连基层岗位薪资,都高达8389元。
评论区一片哀嚎,“我又拖祖国后腿了”的喊声不绝于耳。
近年来,这类“权威调查”层出不穷:
《2018年全国平均工资7850元,你拖后腿了吗?》
《90后没有性生活了:30%的人无性且单身5年以上》
《互联网巨头:公司员工平均年薪50万!》
《就业寒冬来了!全国平均32人竞争一个岗位》
《中国男女比7连降,3000万男性将“打光棍”!》
《长期单身会短命:单身男性比已婚死亡风险增加20%》
看到这些报告,很多人大呼:我不信!但是除了翻个白眼之外,好像也说不出哪里有问题。毕竟“数据不会说谎”。
数据真的那么可靠吗?
并非如此。恰恰相反的是,有大把方法,能让统计数字说谎。
你看到的数据
很可能是“高级订制”
年初,某招聘平台发布报告,报告中显示,2018年年末,全国半数白领拿到年终奖,并且平均奖金高达7100元。
真有这么多人拿到了年终奖??难道1毛钱都没拿到的,只有我一个???
当数据和感受严重不符时,很多人会认为是自己错了。或许自己就是混的比较差的那批人...
可是错的不一定是你,也可能是数据本身。
这类数据,通常都以问卷抽样调查形式进行。偏偏抽样调查,是一种很容易被干扰的调查方式。
首先是样本规模。
我们可以在广州市,调查冬天穿羽绒服的人群比例。但不能声称:调查显示,全国人民冬天几乎都不穿羽绒服。
我们看到的很多调查报告,实际上就是类似这样操作的。一个网站可能只发了几百份问卷,就敢发布“全国XX调查”。
其次是抽样方法。
不是样本规模够大,数据就一定准确。
有一个经典段子:
电话调查显示,美国100%的家庭拥有电话。
同样的例子有很多。譬如某招聘平台,通过对平台的数据库分析,得出了“2018年夏季,求职人才需求量最多的10大城市”。
这份报告其实该叫 ”2018年夏季,在该招聘平台发布职位最多的城市”。
要保证调查数据的准确,需要花费不少精力。
但如果想要“私人订制”一个对自己有利的数据,就轻松很多了。
例如某线上理财平台,做了一个调查。他们得出结论:超过半数的受访者,倾向于使用互联网理财平台。
但这份报告中,对于样本的介绍只有一句话:对全国多个城市年终奖数据进行调查。
用这种调查方式,甚至可以调查出:全国超半数受访者,都使用本平台理财呢。
同样的骚操作,很多招聘网站也干过。某招聘平台有过一个报告:近八成的白领,都在寻找新的工作机会。
但有一个问题,那些不想找工作的人,上招聘网站干啥?闲着没事?(真的有4.4%的用户这么闲)
这类调查无异于在饭店外面问排队的顾客:会不会选择在该店就餐?属于废话。
不规范的数据源有多不靠谱呢?
这么说吧,只要人群找的好,想证明中国人100%都下载了“学习强国”app也是可能的——去政府大楼里做统计嘛。
数据解读方式是如何指鹿为马的?
即使样本够大,抽样方法也足够科学,调查呈现的结果,仍然可以被主观意志所左右。
修改数值、编造数据是最低劣的手段,更高明的是,根据需求采用不同的分析策略。
最典型的例子就是人尽皆知的“被平均”。
有网友云“拿我的工资和马云平均,我也能进福布斯”。
我们可以把这个案例放大到现实世界。据统计,全球最富有的26个人的财富总和,相当于最贫穷38亿人的财富总和。这38亿人构成全球一半人口。
假设最富有的26人财富共2600000000元,每人平均100000000元资产,那最贫穷的38亿人平均只有0.68元的资产。
如果“被平均”一下呢?
38亿最贫穷的人,人均资产变为了1.36元,直接翻了一倍。
资源是不会平均分配的。比起均值,众数和中位数也许更能说明问题。
众数是指在统计中,具有明显集中趋势点的样本,代表统计样本的一般水平;中位数是按顺序排列的一组样本数据中,居于中间位置的样本。
以马云和网友的故事为例:
假设两名网友收入为0元,一名网友的收入为1元,马云的收入为100元,那么统计数据的整体众数为0元。
将4个人的收入按顺序排列,排在最中间的两个数之和为1,取个平均数,可以得出四人年收入的中位数是0.5。
收入的众数,可以体现多数人的收入水平。收入的中位数,可以让大家知道,自己的收入,处在什么位置。
一份统计报告中,只要列出众数和中位数,就能得到相对中肯的结果。但就是有人故意回避这些数据,专拿平均数说事,非蠢既坏。
除了有目的地选用数据,还可以别有用心地解读数据。
谁让这是个充满巧合的世界呢?
在1989年的一次调查里,调查者发现法国人爱吃的食物高脂肪、高蛋白、高热量,但法国的肥胖人口却只有10%,冠心病发病率和死亡率,还比其它西方国家低得多。
鉴于法国盛产红酒,法国人也向来有喝红酒的习惯,研究人员便“顺理成章”地推测:“每天适当饮用红酒有利于心血管健康,可预防心血管疾病的发生”。
实际上,并没有医学证据支持红酒有利于心血管健康的结论。[法国人心血管疾病发病率低] 与 [法国人爱喝红酒] 只是两个独立事件。
这样的谣言广为传播,要拜红酒商人所赐。
巧合无处不在,但是把巧合放在一起,并暗示相关性或因果关系,就其心可诛了。
看了上述这些,通过人为手段操纵数据,得到某个结论的伎俩后,再来看看那些“耸人听闻”的标题:
《2018年全国平均工资7850元,你拖后腿了吗?》
《90后没有性生活了:30%的人无性且单身5年以上》
《互联网巨头:公司员工平均年薪50万!》
《就业寒冬来了!全国平均32人竞争一个岗位》
《中国男女比7连降,3000万男性将“打光棍”!》
《长期单身会短命:单身男性比已婚死亡风险增加20%》
是不是焦虑的感觉少了许多?
此外,即使统计者没有数据曲解,而是竭力想从数据中得出准确信息,也未必能如愿。
因为现实世界的变量实在太多。
譬如说预测天气吧。我们早就会呼风唤雨(人工降雨),还能控制蓝天(G20蓝、APEC蓝),天上还飘着数以百计的卫星,结果呢?
天气预报还没有萧敬腾准。
网友评论