作者说,骗子对于行骗的技巧早已胸有成竹,而诚实的人出于自卫也应该掌握它。
使我们陷入麻烦的通常并非我们不知道的事情,而是那些我们知道的不确切的事情。——美国作家阿蒂默斯沃德
如果一个人以种种肯定的立论开始,他必将终止于各种怀疑,但如果他抱着怀疑的态度开始,那么他必将得到肯定的结论。一培根
作者岳父在爱荷华州经常看当地报纸报道加利福尼亚州谋杀案较多,因为当地新闻机构更乐意报道其他地区同类情况。
现实媒体报道考虑新闻的可报道性,使读者的结论建立在明显有偏样本基础上的,是一个随意的统计结论。
1、内在有偏的样本,由于选择方式的不合理或者容量过小,抑或两种情况同时存在。
调查发出去多少问卷,愿意接受反馈调查的有多少,调查者有无避税考虑或者碍于面子多报或者少报收入,或者碍于隐私问题并不完全坦诚?通过各种方式调查?电话或者某家机构,他的群体受众能否代表整体样本。比如别人忙的时候采取调查,答案可能敷衍。调查时我们更倾向于受过更多教育,反应快,举止优雅,着装整洁等群体。
有些人言行不一,喜欢看通俗小说,回复调查时可能会说喜欢看更高层次的书,事实订阅上显然不是。调查时统计喜欢看什么类型杂志,不应该选择采访,而是应该选择收购旧杂志。
有小数点的数据并不能代表抽样有多精确,哪怕完美概括了样本,也不意味着它能完美概括总体,具有代表性的样本才能排除各种误差,结论才有价值。
统计数字会说谎无形的误差与有形的误差一样容易破坏样本的可信度。也就说,即使你找不到任何破坏性的误差来源,但是要产生误差的可能性,你就有必要对结果保留一定的怀疑。
最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本,总体即形成样本的母体。随机样本的检验方法是总体中的每个名字或者每个事物是否具有相同的几率被选进样本。
纯随机样本是唯一有足够把握经受统计理论审查的样本,但它有也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯的考虑成本就会排除它。分层随机抽样是一个更经济的替代品。目前在民意调查和市场研究等领域中的到广泛的应用。
一般而言,民意调查都带有一定程度的误差。
但实际上,正如我们前面所看到的民意调查并不一定是被操纵了,也就是说并不一定要为了制造假象,而恶意扭曲,结果样本有偏的趋势本身就可以自动的操纵结果,使其变得扭曲。
所以当你被告知某个数的平均数时,除非能说出它的具体种类-均值,中位数还是众数,否则你对它的具体含义只知甚少。
采用严重有偏的样本几乎能产生任何人想要的任何结果。
这里介绍一个易于理解的显著性检验方法,简单的说它是一种反应,检验数据有多大的可能性代表实际结论,而不是代表那些由于机遇产生其他结论的方法。当遗漏了上述的重要数据时,我们需要对平均数图表或者趋势保留一些怀疑。
统计数字会说谎我们可以在定量衡量你的样本能有多大精度代表总体,那就是可能误差和标准误差。在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。比如抽样调查中,样本可能仅仅含有小部分参与者的意见。就当差别有意义事才能称之为差别。比如所有品牌的香烟含有的尼古丁几乎一样。 只需要改变横作标与纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1/10即可,没有人规定不能这么做,这些产生一张更加完美的图形。显然,图形比文字更有型,因为图形中不存在任何形容词和副词来破坏它所具有的客观性幻觉,而且谁也无法指责你。在显示趋势时,直线图形非常有用。
统计数字会说谎柱状图也具有欺骗性。在描述单一物体时,柱体宽度改变的同时,长度也发生了变化;在描述三维物体是物体体积也容易发生比较,以上任何一种情况都提醒我们应当对柱状图保留一些怀疑。 数字全是2比1,但视觉效果就是4比1而在大多数时候,视觉效果起的决定性的作用。
统计数字会说谎不完全匹配的资料是一种保证你处在有利位置的武器,而且屡试不爽。事情总是表里不一,民意调查中尤甚。
将看上去极像而完全不同的两件事混淆在一起。
相关性的两种因素并不一定有因果关系,可能存在显著影响。
百分比能为不确切的事物蒙上精确的面纱。
学术结论与实验结果前提是否一致.
关于如何不被统计数据欺骗,作者建议关注1谁说的?2他是如何知道的?看样本是否有偏?数值是否足够大?从而能解释问题,观察值是否足够多从而保证结论的可靠性?3遗漏了什么?有没有其他比较数据,信息来源与信息是否存在利害关系?有无原始数据?是否遗漏引起变化的原因?是否原有基数过低?4是否有人偷换概念?比如5年前农场的定义和现在是否一致,比如调查问卷说的和现实中做的是否一致?5这个资料有意义吗?是否与常识向冲突
网友评论