美文网首页
统计数字会说谎

统计数字会说谎

作者: szy916 | 来源:发表于2016-05-16 15:29 被阅读115次

启发:我们需要从数据挖掘出背后的真实原因,单纯的数据呈现,就有可能出现得到有偏差的结论,甚至导致制定错误的计划。

培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。”我想对数据资料的判断和接收也是如此。

第一章  内在有偏的样本

耶鲁大学毕业生收入:参与调查的人本身就不能代表全部毕业生。它也仅仅代表了 1924 级耶鲁学生中可以联系到的,并愿意站出来说出所赚数目的这个特殊群体。

记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说 , 即使你找不到任何破坏性的误差来源,但 只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。

随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本?

第二章  精心挑选的平均数

众数、平均数、中位数

第三章  没有披露的数据

牙膏,小样本,多次实验选择较好的那组

因为他向他们灌输某些观念,特别是将许多普遍存在却未经认可的性行为称为正常。实际上,金西博士只是指出他发现这种行为很普遍,而这便是正常所指,他并没有为这些行为贴上许可的标记,这些行为是否道德也并不属于他的研究范围。

农村接上电。用词模糊,并不是用上电。

平均气温

第四章  毫无意义的工作

记住误差的加减号(比如比较两人的智商)

只有当差别有意义时才能称之为差别

第五章  惊人的统计图形

绘图的手段会给人错觉,比如柱状图、陷入截去下面部分

第六章  平面图形

按照长宽比例,面积会是平方关系,让人感觉的立体物体是立方关系。

第七章  不相匹配的资料

如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。

感冒药杀菌,存在疑点:进入人类就失效,服用前已经被稀释,杀的是什么菌。

数据到底能得出怎样的结论。

交通事故发生的背景、时间段、天气,坐飞机、火车发生的事故。死亡的总人数没有太大意义,要看占总使用人口的比例。

但实际上,公报中的利润仅是实际利润的一半或三分之一,没有报道的利润隐藏在贬值、特殊贬值名目下以应付将来的紧急情况。

如果我每天早上以 99 美分购进一件商品,并在中午以 1美元卖出,那我只获得 1%的收益,但是全年我却获得了投资额的 365%。

这是一个有趣的事实,在考虑某种疾病的发病情况时,使用死亡率或者死亡人数比发病人数更合理__这是因为死亡报道和死亡记录的质量更高。在此例中,明显不相匹配的数据比表面上完全匹配的数据还要好。

第八章  相关关系与因果关系

但这是一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。这个谬误是:如果 B 紧跟着 A 出现,那么 A 一定导致 B。在上例中,当抽烟与低分同时出现时,人们得到了一个未经证实的假设,抽烟导致低分。难道就不能是相反的解释吗?也许低分促使学生不喝酒而变得爱抽烟。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。

问题的关键在于,当有许多合理的解释时,你几乎没有权利选择对口味的解释并坚持认为它是正确的。但事实是许多人会这么做。

第九章  如何进行统计操纵

实际上.如果出版一本书的每项成本开支都上升 10%左右,总成本也只爬升了相同的比例,即 1O%。

另一个困惑出现在百分比与百分点之间。如果某年的投资回报率为 3%,而第二年为 6%,你可以很谦虚地描述:增了 3 个百分点。同样,这样的描述也是允许的:增长高达 100%。要了解人们怎样混淆这两种说法,请观察民意选举的投票者。

第十章  对统计资料提出的五个问题

首先要寻找的是偏差

然后,再仔细寻找无意识偏差

“权威人士”掩盖了真实的资料来源。与医药界沾边的任何东西都可以是“权威人士”;科学的实验室也是“权威人士”;大专院校,尤其是大学以及那些在技术方面名列前茅的学校更具有权威性。前几章中那个试图证明高等教育将危及女孩成婚几率的作者,充分地利用了康奈尔大学这个“权威机构”。但请大家注意,虽然数据来自康奈尔大学,结论却完全是作者自己的。康奈尔大学的声望却让你留下了一个错误的印象,“康奈尔大学得出结论⋯⋯”

注意样本的有偏.是由于选择不当,还是像这个例子一样,由刻意挑选有利的样本造成的。问一个我们前几章曾经提过的问题:样本是否足够大到能够保证结论值得信赖?

有时仅给出百分数却缺少原始数据也能造成欺骗。

有时文章中遗漏了引起变化的原因,这容易让读者认为其他的因素才应对变化负责。某年公布的数据试图用今年 4 月的零售额高于去年来证明经济处于复苏阶段。而遗漏的内容是去年的复活节在 3 月而今年在 4 月。

而且,如果你关心死亡总人数更甚于死亡率的话,不要忽略这个事实:现在的人数已远远超过了从前。

如果数据是建立在人们口头的回答(即使有一些听上去十分客观)基础之上,将发生许多怪事。比如说,普查报告显示 35 岁的人数远远多于 34 或者 36 岁的人数。这个数据来源于家庭某个成员填报的其他成员的岁数。对于不确定的年龄,人们往往倾向于取 5 的倍数。获得该数据的准确办法是:询问他的出生年月。

如果你以每月等额分期付款的形式从银行以 6%的利率借了 1OO 美元,应支付的利息是3 美元。但如果是另一种 6%,有时也称为借 100 美元还 6 美元,你就需要偿还前者的 2 倍即 6 美元。大多数汽车贷款采用后一种方法,实在是狡猾。关键在于分期还款时,100 美元你并没有用到一年,6 个月过去后。你已经偿还了一半的贷款。如果采用第二种形式计算利息,即借款额的 6%,你实际承担的利率应该是 12%。

几年前一家大型电器设备公司以出生率不断下降为基础(多年以来,大家都是这么认为的)高效地制定出了战后的生产计划,并将小容量家电设备、公寓式的冰箱确定为生产重点。其中一个计划者突然发现了计划与常识的冲突,他用足够长的图表列举了这样的事实:他本人、他的合作伙伴、他的朋友以及他的邻居甚至以前的同学都有了孩子,甚至还打算要 3~4 个孩子。这样规模的家庭不应算作小规模的。这导致了一些开放式的调查与制图,不久这家公司快速地将它的生产重点转移到大家庭使用的电器上。——因为虽然出生率下降了,但是更多的家庭变成了多子女家庭,出生率和每个家庭的子女数量没有因果关系

相关文章

  • 统计数字会说谎

    作者说,骗子对于行骗的技巧早已胸有成竹,而诚实的人出于自卫也应该掌握它。 使我们陷入麻烦的通常并非我们不知道的事情...

  • 统计数字会说谎

    启发:我们需要从数据挖掘出背后的真实原因,单纯的数据呈现,就有可能出现得到有偏差的结论,甚至导致制定错误的计划。 ...

  • 书单

    今年看的书: 《枪炮、病菌与钢铁》(2016.10.28) 《生理心理学》(2016.10.6) 《统计数字会说谎...

  • #2018001《统计数字会说谎》

    本书着重说明了统计数字的八种说谎方法,现在对其中最常用的四种进行说明: 1 样本偏差:选取的样本不对或故意不对,导...

  • 产品经理知识学习第一天

    一.阅读《人人都是产品经理1.0》 68/308页 1.推荐阅读的数据分析书籍《黑天鹅》和《统计数字会说谎》...

  • 《赤裸裸的统计学》回顾--(一至三章)

    统计数字很容易说谎,但没有它,你就无法在大数据时代找到真相,预测未来。--查尔斯·慧伦 曾经何时,我也是极...

  • 《赤裸裸的统计学》笔记

    统计数字很容易说谎,但没有它们,你就无法在大数据时代找到真相,预测未来! 视频网站是如何知道你喜欢的电影类型的? ...

  • 统计数字会撒谎

    作者达莱尔哈夫,统计学专家,虽然这本书写于70年代,但是里面的各种数据的“伎俩”到现在还在广泛被使用。 数据是我们...

  • 统计数字会撒谎

    一、内在有偏的样本 1、抽样:只要样本足够大,并且具有代表性,多数情况下,样本的信息可以很好地代表总体。但如果条件...

  • 理性克服焦虑——读《统计数字会说谎》有感

    不知道从什么时候开始,每个人的身边都充斥着大量宣泄焦虑的文章跟数据。相信大家对前段时间被“你的同龄人正在抛弃你”之...

网友评论

      本文标题:统计数字会说谎

      本文链接:https://www.haomeiwen.com/subject/qdubrttx.html