看穿一切数字的统计学
西内啓
69个想法
02 统计学是能够得出最好、最快答案的正确方法
>> 那就是不管在什么领域,收集数据进行分析都是得出最好、最快答案的方法。
09 单纯收集数据会得出“禁食米饭”的荒谬结论
>> 对于统计分析中的3个问题,即问题1 做出何种改变能够增加利益?问题2 是否能够做出这种改变?问题3 如果能够做出这种改变,那么带来的利益是否大于所消耗的成本?必须全部回答。
11 真的增加了一亿销售额,还是只是误差?
>> 不考虑“误差”的计算都不准确
>> 所谓“A/B测试”,是指在对设计或者功能进行更改时,同时提出A方案和B方案进行比较的一种方法。
>> 对于像这样的交叉表,要想知道究竟是“有意义的区别”,还是“误差导致的区别”,就需要用到一种被称为“卡方检验”的分析方法。
>> 像这种“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。
>> 就算是0.1%的微小区别,如果实际上确实存在的话,可以通过增加样本数量的方法证明
>> 数据的样本数量越多,误差就越小。
12 值得分析的数据都是与利益明显相关的
>> “进行适当的比较”、“不只进行单纯的收集统计,还清楚误差与p值”,只要掌握了这两点,就能够找到远超经验与直觉的秘籍。
>> 我们究竟应该对什么样的数据进行比较,并且从中找出产生区别的主要因素呢?答案其实很简单。只要将“能够达成目标的事物”和“不能够达成目标的事物”进行比较即可。
>> 很多大学和研究机构常常打着“学术自由”的幌子,投入大笔经费去搞一些毫无价值的研究,虽然这在学术领域无人追究,但是如果换在商业领域的话恐怕就不行了。
>> 在商业领域检验一个数据是否值得分析的指标,就是是否能够带来直接利益,或者是否能够表明带来利益的因果关系。只要能够在商业领域证明“这是明显与利益相连的指
>> 标”,那么就可以说这是与销售额一样值得进行比较的数据。
13 统计学中的重大问题:“因果关系的方向”
>> p值,即“本来没有什么区别,只是由于误差导致出现这种偶然情况的概率
>> 也就是说,“因为看了广告而购买商品”和“因为购买了商品之后对广告才印象深刻”,这两个假设究竟哪
这是否提示,如果要进行因果推断,其数据必需在多个时间点进行采集?
>一个是正确的,对于这种单一时间点的调查数据及其分析结果,哪怕p值再小也没有意义。
>> 一个是正确的,对于这种单一时间点的调查数据及其分析结果,哪怕p值再小也没有意义。
>> 只要能够从这些现有的数据中找到那些并不属于误差的准确区别,就可以将其作为非常宝贵的假设依据。
14 先放牛奶还是先放红茶?
>> 费希尔几乎凭借一己之力创造的被称为随机对照试验的方法
>> 为了进行科学证明而选择的顺序”中,最重要的一点就是“随机”。
>> 如果你今后面临判断绝对不能失
在给出结论前要回答以下两个问题:1.是否有证据支持你的猜想?2.这个或这些证据是否充分(这是否是一个随机对照试验得出的证据或结论)?
>误的情况,那么一定要想办法进行合适的随机对照试验。
>> 误的情况,那么一定要想办法进行合适的随机对照试验。
15 随机对照试验:商业竞争中的有力武器
一个理论是否是科学的,在于其是否能被证伪。另外,它还要能对已发生的现象进行解释,并能对未发生的现象进行预测。
>科学方法论的重要特征——“观察与试验”。“观察”就是对目标进行详细的观看和测量,并且从中找出真相的行为。“试验”则是在改变各类条件的前提下对目标进行观察的行为。
>> 科学方法论的重要特征——“观察与试验”。“观察”就是对目标进行详细的观看和测量,并且从中找出真相的行为。“试验”则是在改变各类条件的前提下对目标进行观察的行为。
>> 如果没有费希尔的随机对照试验,人类就无法科学地掌握“存在误差的现象”。
>> 找到“误差”的3种方法当某种现象不会百分之百地出现时,要想科学地掌握这种现象,有3种方法。
>> 第一种,是完全不考虑实际数据,以假设为依据建立理论模型。在统计学诞生之前,经济学等社会科学经常采用这种方法。
>> 第二种,为了证明“百分之百出现”的状态,只将出现的结果进行报告。
>> 第三种,就是费希尔提出的将随机因果关系用概率的形式表现出来的方法。
16 “一次购买两台缝纫机可以打9折”能够增加销量吗?
>> 随机对照试验可以以较少的成本,大幅降低犯错的概率。
>> 当我们面对“找不到正确答案的问题”时,首先应该想到的就是进行随机对照试验。只要采取随机对照试验,并且对后续的数据进行采集,就能够找到“怎样做才好”以及“能够创造多少利益”这些问题的答案,至少能够在通往正确判断的道路上实实在在地更进一步。
>> 只需要在Excel电子表格中键入“=rand()”,就能够非常简单地得到一个随机数。
17 随机化面对的现实、伦理和感情之壁
>> 凡是类似于“只有1次机会”或者“只有数量有限的几次机会”的事情,随机化都无法发挥真正的威力。
>> 公司是否应该进行大规模的企业合并,或者是否应该向现在的恋人许诺“牵手一生”,随机化对此都无能为力。
>> 第一种伦理底线是连小学生都明白的道理,即“不能做坏事”。
>> 第二种
>> 对另外一半人明显的不公平”。
18 低成本、快速搜集数据的流行病学方法
>> 即便有某种超出我们认识范围的条件对结果造成影响,只要进行随机化分析,也可以在无形中实现“相对平等”。
>> 在结果出现前就一直进行持续调查的流行病学研究(这种方法也被称为队列研究
19 “回归平凡”的回归分析
>> 即便不像病例对照研究那样专门在数据采集上大费周章,仍然可以通过高超的方法找到最全面的条件进行“公平比较”。为了实现这一目标,最重要的方法之一就是回归分析。
>> 展现数据之间的关联性,检测是否属于误差范围的所有方法,大体上都可以看作回归分析的一种方法。
>> 像这样对数据间的关系进行记录,或者根据一方数据推测另一方数据的方法就是回归分析的思考方法,上述公式所表示的那条直线被称为回归直线。
22 现代统计学的主角:多元回归分析
>> 像这样全体进行的单纯比较与内部小群体进行的比较结果相矛盾的情况,就是辛普森提出的问题所在。
>> 要想防止辛普森悖论,就需要像流行病学的观察研究那样保证条件的一致性。
>> 这种将具有同样条件的群体进行比较分析的方法,被称为分组分析。
>> 不需要分组的多元回归分析
>> 利用比值比进行逻辑回归分析
>> 因为多元回归分析只能够应用在结果变量为连续值的情况下
>> 逻辑回归大体上的思考方法就是将原本为0或1的二值结果变量,变换为连续的变量进行多元回归分析。
>> 在逻辑回归之中,回归系数是以“比值比”来表示的,意思是“大概有几倍的机会”
23 统计学家最拿手的统计法
>> 像多元回归分析和逻辑回归这样的回归模型,是在寻找数据关联性时最常用的方法。
>> 使用回归模型时要注意交互作用
>> 无限接近随机化的“倾向指数”
>> 1983年,罗森堡和鲁宾这两位统计学家提出了倾向指数的统计方法。这一方法在随机化无法或者难以确定因果关系时能够发挥非常巨大的作用。
>> 所谓倾向指数,就是判断拥有二值的解释变量“究竟应该是哪一个”的概率。
>> 只要能够确定吸烟率相同的人群,那么诸多条件就不会对吸烟率造成任何影响。也就是说,只要推测出影响吸烟率的条件,就能够实现和随机对照试验相同的公平比较。
24 统计学家们的残酷战争
>> 只要你掌握具有以下6个特征的统计学思考方法,那么今后不管面对什么样的统计学理论,你都能够理解“应该站在哪种立场进行分析”。把握实际动态的社会调查法。为了找出原因的流行病学——生物统计学。检测抽象概念的心理统计学。进行机械化分类的数据挖掘。对自然语言进行处理的文本挖掘。关心演绎的计量经济学。
25 发明“IQ”的心理统计学
>> 赛斯顿对许多与智能相关的测验结果进行了因子分析,最终整理出7种表示智能的因子。感知空间与立体认识的空间智能。与计算能力相关的数学智能。善于理解语言和文章内容的语言智能。与判断和反应速度相关的感觉智能。能够进行理论判断的推理智能。快速灵活使用语言的流畅性智能。擅长记忆的记忆智能。
>> 似乎对高业绩的研究对象们来说,已经从上述两个方面感受到了足够的工作意义,因此要想继续提高他们的工作热情,最好的办法是给予薪水和晋升空间等物质方面的激励。
28 “演绎”的计量经济学与“归纳”的统计学
>> 科学的推论形式大体上可以分为归纳与演绎两类。总体上来说,归纳就是将个别事例集中起来推测出统一规则的方法;演绎则是基于某种事实和假设,通过推理导出结论的方法。
29 贝叶斯派与频率派之间的对立
>> 与医疗领域的例子不同,这种情况属于“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
>> 通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。
30 用统计学寻找“最佳答案”
>> 而在随机对照试验中唯一需要注意的问题就是,在绝大多数情况下,无法实现对整体人群的抽样调查。
>> 在这个时候我们需要系统评析和荟萃分析。
>> 所谓评析,就是将多个研究综合起来最后得出结论的过程。
>> 还可以在普通的论文数据库中输入包括“‘meta–analysis or’‘systematic review’”(“‘荟萃分析’或‘系统评析’”)在内的关键词进行检索。
后记
>> 统计学最强大的地方就在于能够最快而且最准确地找到这条通往“最佳”的道路。
点评
认为推荐
对于统计学小白来说,是一本不错的入门书籍。第一次看介绍统计学的书觉得欲罢不能,感觉非得一口气读完不可?
网友评论