美文网首页
《赤裸裸的统计学》回顾--(十三、十四章)

《赤裸裸的统计学》回顾--(十三、十四章)

作者: 般若般罗蜜多 | 来源:发表于2020-03-15 12:06 被阅读0次

    第十三章  致命的回归错误

            ·世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以,“尽量不要用你的回归分析研究杀人”。

            ·回归分析七个常见错误

                -1、用回归方程式分析非线性关系。回归系数所描述的的是那条“数据最佳拟合直线”的坡度,一定是条直线,当变量关系为线性关系时才能用线性回归。

                -2、相关关系并不等同于因果关系。回归分析只能证明两个变量之间存在关系,至于是不是因果,仅凭数据是无法给出证明的。

                -3、因果倒置。假如A和B之间存在统计学关系,我们不能直接推出A导致B,因为完全有可能是B导致A。例如,失业率和GDP是有关系的,GDP高时,可能失业率会降低,但是不能说失业率降低促进了GDP的升高。

                -4、变量遗漏偏差。例如,假设有一个结论,“打高尔夫易患心脏病、癌症和关节炎”,千万不要轻信。因为,打高尔夫球的人比一般人易患关节炎、心脏病的概率高是可能存在的,但是,在量化打高尔夫球对健康的影响时都必须正确控制“年龄”变量,通常来说,年龄越大,打高尔夫球的机会就越多。

                -5、高度相关的自变量(多元共线性)。在一个回归方程式中,假如两个或两个以上自变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每一个变量和因变量的真实关系。例如,研究吸毒对考试成绩的影响时,即使分别求出海洛因和可卡因的回归系数,依然无法揭开真实的情况,因为,通常吸食海洛因的人也会吸食可卡因。

                -6、脱离数据进行推断。回归分析的目的是帮助我们更好地认识世界,发现能适用所有人口的规律。但是我们的结论仅仅是对与所分析样本相似人口有效。   

                -7、数据矿(变量过多)。假如遗落重要的因变量会带来诸多麻烦,但是并不是越多因变量就越好,物极必反。当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。

            ·回归分析两个基本概念

                -1、设计一个好的回归方程式,想清楚应该考虑哪些变量、应该从哪里收集数据,一个好的方程式要比统计计算本身更加重要。这个过程可以通过对方程式的评价和回归方程的具体化来实现。

                -2、与绝大部分统计推断一样,回归分析始终以观察样本为立足点。两个变量之间的相关关系就像是犯罪现场的指纹一样,能够为我们指出正确的方向,但在大多数时候还不足以定罪。回归分析应得到以下理论支持:为什么回归方程式里要有这些自变量?通过其他学科领域是否也能解释这个分析结果?

                例如,为什么认为穿红色衣服会提高考试成绩?为什么吃爆米花可以帮助预防前列腺癌?分析得出的结论需要有可复制性,至少也得与其他科学发现相一致。

    第十四章  项目评估与“反现实”。

            ·哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?

            ·项目评估的常用方法

                -1、随机控制实验。样本数量越大,随机分配的作用就越明显,实验组和对照组的相似性就越强。所以,创造实验组和对照组的最佳方法就是将研究对象随机分配到两个组里。随机性的好处就在于,与试验无关的变量一般都会在两个小组里实现平均分配,包括那些显而易见的特性,比如,性别、种族、年龄和教育,也包括其他难以察觉但可以干扰实验结果的特性。

                -2、自然实验。随机控制实验的代价是高昂的,不是所有人都可以进行。一个更经济的方法就是用自然实验代替随机实验,当某个事件自然而然地发生时,恰好营造出一个接近于随机、对照的实验环境。

                -3、非对等对照实验。就算你认为你的随机分组毫无破绽,但或许实验组和对照组之间还有一些难以察觉的差异,从而产生跟现实有偏差的结论,这就是“非对等对照”。

                -4、差分类差分实验。观察世界和结果的一个最佳方式就是放手去做,然后看看会发生什么。例如,假设政府减税时,经济就上升,那么减税政策就是经济的助推剂。但是会不会是因为实行减税政策时,一些“外生”因素或者“介入”因素对经济上升有影响呢?所以,任何“前与后”类的分析均面临着一个挑战,那就是仅凭一件事紧随另一件事情的发生,并不能推断两件事之间存在因果关系。

                因此,“差分类差分”实验的步骤如下:首先,对某个群体接受某项介入因素之前和之后额数据进行比较,例如减税政策推行前后,某地方的经济变化情况;其次,将这些数据与另一个没有推出减税政策的同类地方同期的经济情况对比。

                -5、不连续分析实验。实验组和对照组存在一种设置方式,就是将那些刚好符合介入的对象,以及以差之毫厘错失介入机会的对象进行比较。那些刚好超过或略微不足规定条件(如考试分数59分和60分及格或最低收入等)的个人,其实在很多重要方面与实验组的人相差无几,而一组接受介入、另一组对象不接受介入的人的划分其实本身就是非常随意的。因此,比较这两类对象可以为我们提供有关介入的有益参考。

    结束语    统计学能够帮忙解决的5个问题

            ·中国足球的未来在哪里?

            ·是什么导致了渣男渣女的数量激增?

            ·我们依据什么来知道优秀的伴侣?

            ·解决全球新冠病毒问题的最佳途径是什么?

            ·猜猜我是谁?

    相关文章

      网友评论

          本文标题:《赤裸裸的统计学》回顾--(十三、十四章)

          本文链接:https://www.haomeiwen.com/subject/upfqehtx.html