统计数字会撒谎——人行面试读书

作者: cure_py | 来源:发表于2018-01-05 18:06 被阅读0次

统计数字会撒谎——人行面试读书
统计数字会撒谎
统计数字会撒谎
《统计数字会撒谎》读书札记
统计数字会撒谎-读书笔记
戏说撒谎_码字者:邵明
《赤裸裸的统计学》
《赤裸裸的统计学》
【随机模拟小试验】有偏分布下的均值、中位数、众数之间的关系
酱宝问——谎言篇

1.内在有偏的样本

样本有偏——样本会倾向于某种选择，不能代表总体
例子：在《文学文摘》的例子中，与希望代表的全体选民相比，由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定吸光等特点的群体，而产生了误差。

分层抽样——需要将总体按照事先已知的优势比例划分出不同的组。

总结

为了确保结论有价值，根据抽样得出的结论一定要采用具有代表性的样本，这种样本才能排除各种误差
无形的误差与有行形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏性的误差来源，但只要有产生误差的可能性，你就有必要对结果保留一定的怀疑
最基本的样本是随机样本，它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体
随机样本的检验方法：总体中的每个名字或每个事物是否具有相同的几率被选进样本？
纯随机样本是惟一有足够有把握经受统计理论审查的样本，获得这种样本的难度很大并且十分昂贵。分层随机抽样是一个更经济的替代品，目前在民意调查和市场研究等领域中得到了广泛的应用。

2.精心挑选的平均数

年收入低于5000英镑所占的比例超过了95%，在收入曲线上朝左边拖出了一条长长的尾巴。（均值与中位数相差甚远）

总结

当看到某个平均收入时，首先问问：是什么的平均？包括了哪些人？

3.没有披露的数据

“为了得出这个结论，你调查了多少名被访者？”
显著性检验方法——一种反映检验数据以多大的可能性代表实际结论、而不是代表由于机遇产生的其他结论的方法。
通常情况下，单凭一个平均数来描述事物过于简单，起不到作用，不管这个平均数是均值还是中位数。
当遗漏了上述的重要数据时，我们需要对平均数、图表或者趋势保留一些怀疑。

4.毫无意义的工作

我们可以定量地衡量你的样本能以多大的精度代表总体，那就是：可能误差和标准误差
在所有抽样研究中都有误差，忽略这些误差将导致一些愚蠢的举动
只有当差别有意义时才能称之为差别

5.令人惊奇的图形

6.一维图形的滥用

数字全是2:1，但视觉效果却是4:1，而在大多数时候视觉效果起着决定性的作用

7.不完全匹配的资料

“以每小时70赢利的速度疾驶在高速公路上，当时的时间如果上早上7点，那么你生还的机会将上晚上7点的4倍”
晚上的车祸比早上多，仅仅上因为晚上有更多的车和人在高速公路上行

“在美国和西班牙交战期间，美国海军的死亡率上千分之9，而同时期纽约市居民的死亡率上千分之16，证明参军更安全”
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成，而城市居民包括了婴儿、老人、病人，他们无论在哪儿死亡率都比较高。

总结

不完全匹配的资料是一种保证你处在有利位置上的武器，而且屡试不爽
事情总是表里不易，在民意调查中尤甚
搜集这样的资料，却把它说成是那样一回事，这种挂羊头卖狗肉的行为还有许多其他的形式。一般的做法是将看上去极像、而完全不同的两件事情混淆在一起

8.相关关系的误解

所谓的“相关”往往是通过“相关系数”这个令人心服的精确数值，来证明事物之间存在的关联关系，它可以有多种不同的类型。

一种相关是由于机缘巧合而产生的。由于偶然性收集数据证明其相关，但重新收集数据后则无法证明相关的结论。（任意两个事物或两组特性之间，在利用小样本后，都能建立显著的相关关系）

联合变动的一种普遍形式是存在着真实的关系，但却无法确定何为因何为果。有时因果可以不时地交换位置，或者实际上互为因果。

最富戏剧性但是虽然所有变量相互间没有任何影响，但是的确存在着显著的相关。（抽烟者与成绩的不好）

总结

两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化
相关显示了一种趋势，而这种趋势通常并不是那种一对一的理想关系

9.如何进行统计操纵

任何建立在小样本容量上的百分数都可以能产生误导，直接给出调查对象规模（样本容量）的大小将更有价值

50%的削减量需要通过提高100%才能加以补偿

变换基础还能产生增加折扣的幻觉（50%的折扣再打20%的折扣时，并不意味着70%的折扣，实际上只有60%）

将一些看似能直接相加却不能这样操作的事情加在一起，会产生大量的欺骗和隐瞒（一年365天，减去1/3即122天作为休息时间，再减去约45天作为一日三个小时的进餐时间，余下的198天中再扣除90天度暑假，21天过圣诞节和万圣节，余下的时间连过星期六和星期天都不够）

10.如何反驳统计资料

1.谁说的？
首先要寻找偏差
（1）有意识的偏差——错误的陈述、含糊之词、挑选适合的数据；测量标准的改动（比较时，一次采用某年为比较年份，另一次却使用更有利的年份）；使用不正确的测量方法（比如简单的使用‘平均数’）
（2）无意识的偏差——

2.他是如何知道的？
看样本是否有偏（可以挑选有利的样本造成有偏），样本是否足够大
相关系数：数值是否足够大，从而能解释问题？观察值是否足够多，从而保证结论的可靠性？

3.遗漏了什么？
当看到一个指数时，或许应该关心遗漏了什么。
一个经过挑选的基期将会扭曲事实（利润指数上升得快的原因是因为萧条时期利润指标几乎达到谷底，于是基期数值相对较小）
遗漏了引起变换的原因（4月零售额高于去年，以此来证明经济处于复苏阶段，遗漏的内容是去年的复活节在3月，而今年在4月）

例子——“最近25年癌症死亡人数增多”
影响癌症的死亡人数：以前许多“病因不明”的案例现在已经确诊为癌症；尸体剖解成为一种经常使用的方法，便于做出更确切的诊断；医学统计资料的报告和编织更加全面；易发病年龄段的人数增多；现在的人数已远远超过了从前

4.是否有人偷换了概念？
定义的变化（按照5年前的定义，当年中至少30万个农场是不能被成为农场）
如果数据是建立在人门口头回答的基础上，会发生许多怪事（将囚犯所有的生活费与酒店的房租进行比较）
将“相关关系”偷换成“因果关系”

4.这个资料有意义吗？

网友评论

本文标题：统计数字会撒谎——人行面试读书

本文链接：https://www.haomeiwen.com/subject/qpbpgxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！