美文网首页StatQuest学习笔记分享
42统计基础- 比率比和比率比对数

42统计基础- 比率比和比率比对数

作者: 不到7不改名 | 来源:发表于2021-01-12 10:17 被阅读0次

什么是比率比和比率比对数

当人们说比率比(odds ratio),他们是在谈论比率(odds)比(ratio)

image-20201231113443987.png

当我们计算某件事的比率比(odds ratio),如果分母大于分子,比率比为0~1。如果分子大于分母,那么比率比将从1到无穷。就像比率一样,取比率比的对数(log(比率比))会让事情变得完美和对称。

image-20201231114042339.png

比率比(odds ratio)的应用

比率比(odds ratio)的应用:我们有一群人(确切地说是356人),29人患有癌症、327人没有,140人有突变基因、216人没有突变基因,我们可以使用“比率比”来确定突变基因和癌症之间是否存在联系,如果有人有突变的基因,那他们得癌症的几率会更高吗?有突变基因,患癌症的比率为23/117。没有突变基因,不患癌症的比率为 6/210。比率比和对数(比率比)类似于r平方,它们表明了两种事物之间的关系(在这个例子中,突变基因和癌症之间的关系)。就像r的平方一样,这些值对应的是效果大小(effect size)。较大的值意味着突变基因是癌症的良好预测因子。较小的数值意味着突变基因不是一个好的预测因子对于癌症。

image-20201231115733231.png

比率比和比率比对数P值的计算

然而,就像r²一样,我们需要知道这个关系是否具有统计学意义。有3种方法可以确定比率比(或log(比率比))是否具有统计学意义。一个超级恼人的事情是,对于哪种方法是最好,并没有普遍的共识,人们经常混合搭配。有些人经常使用费希尔检验和卡方检验去计算p值,使用Wald检验去计算置信区间。有些人用wald检验去计算p值和置信区间,可以确保p值和置信区间总是一致的,但要检查并看看你所在领域的其他人做了什么,以找出最可接受的方法。

  • 费希尔精确检验(Fisher's Exact Test)

  • 卡方检验(Chi-Square Test)

  • (The Wald Test)

    现在让我们讨论如何使用卡方检验计算p值。卡方检验比较真实值和理论值,假设突变基因和癌症之间没有关系。为此,我们计算患癌症的概率p=29/356=0.08,然后计算有突变基因的140人中患癌和不患癌的理论值,计算没有突变基因的216人中患癌和不患癌的理论值。然后真实值和理论值做卡方检验,计算p值。

image-20201231122759817.png

Wald检验会充分利用log(odds ratios),它通常是服从正态分布的,这是一个由1万个随机生成的log(odds ratios)组成的直方图,它告诉我们,如果突变基因和癌症之间没有关系,可能p值的大小。如果你想在家里画这个直方图,随机挑选的总人数在300~400。

  1. 我们选择的是325(数字位于300到400之间);

  2. 针对每个样本选择一个0到1之间的随机数,例如0.01,0.73,0.95;

  3. 小于0.08的那些样本就是患癌症的人。例如,325个样本中有17个患癌症。

  4. 为每个样本再挑选1个位于0到1之间的随机数字;

  5. 小于0.39的那些样本就是含有突变基因的人。

这给了你一个随机值的矩阵,它不依赖于突变基因和癌症之间的关系。计算log(odds ratio),做10000万次,然后绘制出直方图,在拟合一个正态曲线。注意:直方图和曲线的中心在0处,当比率没有差异时,log(比率比)=0,标准差为0.43。

image-20201231124911773.png

通常使用观测值来估计标准差=0.47

image-20201231125325848.png

Wald检验所做的就是看:log(odds ratios)与0之间有多少个标准差。由于Wald检验通常使用的是估计标准差,我们将用标准差=0.47,以0为中心的正态曲线替换直方图。计算可得log(odds ratio)=1.93,它位于曲线的右侧部分,此时我们计算一个这个值距离0有几个标准差,我们只用它除以标准差即可,1.93/0.47=4.11

image-20201231130322815.png

按照我们平时的计算规则,通常偏离2个标准差的p值会小于0.05,那么此时我们就可以知道log(odds ratio)在统计学上的显著的。不过,为了得到一个精确的双尾检验的p值,我们可以求出大于1.93以及小于-1.93的曲线下面积。然而,这传统上是使用标准正态曲线(即均值为0,标准差为1的正态曲线)来完成的。这意味着将>4.11和<-4.11的曲线下面积相加,其中4.11是log(odds ratio)离均值的标准差 ,最终我们计算的结果就是,突变基因与癌症之间没有关系的p值是0.00005

image-20201231130956347.png

三种方法总结

前面我们使用了3种方法来计算p值,当我们生成10000个随机的log(odds ratios)时,我们分别使用这3种方法来检验,如果检验符合预期,那么有5%的可能性p值是小于0.05的,如下所示:

图片

从这三种方法的计算结果来看,它们在限制p值方面都表现得很好,因此你所做的就是找出你自己专业领域中最常用的方法。就作者个人的看法,如果都能通过所有的检验,那么他会选择一个在边界上的p值。

相关文章

  • 42统计基础- 比率比和比率比对数

    什么是比率比和比率比对数 当人们说比率比(odds ratio),他们是在谈论比率(odds)的比(ratio)。...

  • 41统计基础- 比率和比率对数

    你很有可能已经对比率(odds)很熟悉了,例如,你可以说我们队获胜的比率是1:4。事实上,我们有5个游戏,1个游戏...

  • 《思考快与慢》9

    为什么说因果关系比统计学信息更具说服力? (1)“统计学基础比率”(statistical base rates)...

  • 【现金流量】100/100/10(15%)

    一、概念 现金流量比率 > 100%现金流量允当比率 > 100%现金再投资比率 > 10%三个指标每个占比5%,...

  • D25 流动比率

    这个部分包含两个指标,分别是:流动比率和速动比率,各占比50%。 “流动比率”想替投资者表达的意思是“你欠我的,能...

  • 速动比率

    读财报过程中,分析公司的偿债能力有两个指标:流动比率和速动比率。流动比率代表所欠的短期债务有能力还吗?速动比...

  • 现金流量允当比率(财报七)

    现金流量(比气长,越长越好):公司的存活能力 1.1,大于现金流量比率100\现金流量允当比率100\现金再投资比...

  • 心智乐高03 - 基本比率谬误

    基本比率谬误(base rate fallacy),是指对统计学上的基本比率不敏感导致的推论谬误。 基本比率对概率...

  • 使用夏普比率的“坑”

    昨天讲的夏普比率,容易让人产生一个错觉:有了这么一个简单的比率,以后投资基金就只要看夏普比率就够了。 但其实夏普比...

  • 典型性与基础比率

    典型性与基础比率是你判断事情的两种方法,典型性即直觉判断,根据大脑的发散思维,基础比率即根据统计学来判断。 文章初...

网友评论

    本文标题:42统计基础- 比率比和比率比对数

    本文链接:https://www.haomeiwen.com/subject/uwvmoktx.html