![](https://img.haomeiwen.com/i2097370/822bd8d58847a9ef.png)
作者达莱尔哈夫,统计学专家,虽然这本书写于70年代,但是里面的各种数据的“伎俩”到现在还在广泛被使用。
数据是我们日常生活必不可少的工具,这里,我们着重解释下,数据确实是工具,他是一个实时的表现形式,但是如果因为部分人的疏忽或者刻意为某种目的,那数据可能就是一个可以欺骗人的工具,这本书就罗列了好几种数据“欺骗”的方式,并且简单的建议,我们如何辨别数据。个人觉得,后半段内容,我们可以大体了解下,但是真要去辨别,可能因为我们的能力而无法得到我们想要的答案,但是就数据质疑,我们一定要有这方面的意识。
数据造假手段有以下几个形式:
1,统计样本不客观。书里就举例了罗斯福精选的案例,虽然太阳时报的统计罗斯福会惨败,但是他们的取样群体都是高阶层的“有电话,有汽车”的人群,并不能代表普罗大众的意愿,所以,这次调查便成为有名的失败案例。
2,平均数上的小手段,我们了解下几个数据称谓:算术平均数;中位数;众数
平均数就是所有数值相加除以取样数量的结果,代表的只是一个数据,但是也可以隐藏部分少数的特别高数据。中位数就是把所有抽样按照数值排序,区中间一部分的人作为数据取样对象得到的数值,可以完全隐藏特别高或者特别低的数据,比平均数隐藏手段更加厉害。众数,以绝大多数人的数据为准。这些称谓,都可以做手脚
3,一楼样本数量,只看数据一部分,类似我们去中位数,100个人,只取中间10位,这样得到的数据,基本不能符合事实。切记,关心下样本数量。
4,利用误差,数据是可以在一定范围内上下浮动的,抽样调查得到的数据,如果一个是89,一个是92,但是误差范围是3,那完全有可能,第一个数据要比第二个数据高
5,混淆了相关关系和因果关系。比如环境调查,医院是死亡率较高的地方,但是,不能代表医院就是环境差。只研究功课差的学生的吸烟概率,不能得出,功课差和吸烟有关,因为成绩好的同学也有吸烟的
除此以上集中之外,书里还包括了种种利用数据“欺骗”的手段,例如图标表现形式,怎样让用户加深“错误”数据的印象等。
防范数据的手段,总体来讲就是,多质疑,多提问,多思考
比如,数据是谁说的,这个“谁”和数据什么关系,他表达这个数据的目的,是否收益。
比如,数据是通过什么形式得到的,是不是样品数量,样品抽取的部分有什么问题
比如,数据是不是可能在某些方面遗漏,遗漏的目的是什么,如果没有遗漏数据会是如何
比如,是不是在偷换概念
以上就是我对这本书的读书笔记。
网友评论