美文网首页
浅谈选择偏倚

浅谈选择偏倚

作者: oncology咕噜 | 来源:发表于2020-04-09 19:28 被阅读0次

病例对照中的RR与OR

最开始学病例对照研究的时候可能有一个疑问,就是为什么只能用比值比(OR),而不能用风险比(RR),按道理直接算也是可以算出RR的。一般的解释是:在病例对照中,我们无法算出总体数量,也就是算risk时,没有固定的分母,或者分母是任意的。而这个分母取决于我们病例匹配的比例,比如当1:1匹配时,RR相对小,当1:100时,RR就会变大。

如图所示,一个假想的病例对照研究,其中假设我们对总体的发病情况已知:即图右侧的2×2表格,其中A、B、C、D分别代表相对应的个体数量。在病例对照的样本中(图左侧表格),我们假设从总体患病个体中随机抽取f1比例的样本,从总体非患病个体中随机抽取f2比例的样本,为了方便,我们同时假设不存在抽样误差。因此,样本中的个体可以表示为a=f1A,c=f1C,b=f2B,d=f2D。则我们可以计算RR的估计值为:

那么既然RR不行,我们再来看看OR为什么可以。

                                                 病例对照中的选择偏倚

如因果图所示,A代表某种干预,Y代表结果或某种疾病风险,C代表某个个体是否被选择进入病例对照研究样本中(1:不选择,0:选择)。可以想象,因为病例选择是任意的、人为的,所以病例会更多的或更少的选择进入样本中,表示为Y对C的因果效应。而当干预A对选择人群中存在其他某种疾病风险的关联时,例如对某个疾病有保护作用,则当选择对照样本时,更容易选择有这个疾病的人群,表示为A对C的因果效应(或间接因果效应A-M-C)。

因此,当我们选取C=0的样本时,相当于校正了C变量,而C变量同时被A和Y影响着,属于碰撞变量(collider),因此,引入选择偏倚,也称为不适当对照选取偏倚。

当然,除了上述描述以外,病例对照中还有其他情况的选择偏倚也可以用上述因果图或其修改版表示。

                                                  其他类型的选择偏倚

      无论在任何观察性研究中,我们通常有一个错误的校正偏倚策略,即校正全部收集到的协变量。这个校正方法有几个问题,简单的,从统计估计角度来讲,当协变量数量增加时,校正集会变成高维数据,产生维度诅咒现象或稀疏数据偏倚。当然,假设我们可以处理了高维度数据,那么,从识别角度来讲,也有可能引入选择偏倚。

      如上述因果图所示,L是干预A发生后所影响的一个变量,同时因为未知混杂变量U的存在,使得L与结果Y之间产生相关性,此时L是一个碰撞变量。正常情况下,我们识别干预A对结果Y的因果效应时,并不存在偏倚,因为唯一的因果路径被L阻断。然而,当我们试图校正所有协变量时,则可能将L一并校正,此时产生零效应下选择偏倚(bias under the null),意味着,即使A对Y无因果效应,我们观测到A对Y依然存在相关性。

       同样情况也可能发生在校正碰撞变量子变量的情况下,如上述因果图所示,当我们校正碰撞变量B的子变量L时,也会产生零效应下选择偏倚。

既然上述问题均是因为我们校正了干预后发生的某个碰撞变量L(或其子变量),那么干脆不校正干预后发生的协变量可行吗?答案是,不行。

当干预后协变量L是某个导致Y发生的变量时,同时也是与干预A之间因为某个混杂因素U而产生相关性的变量。这种情况,因为存在未知混杂因素U,因此,我们需要校正混杂路径上的变量L,以阻断混杂因素U。所以,如果完全不校正干预后协变量,那么可能存在混杂偏倚。

既然,问题都发生在干预后,那么校正全部的干预前协变量不是也很好吗?答案是,依然不行。

       如上述因果图所示,协变量L发生在干预A之前,然而同时与干预A之间和与结果Y之间均存在混杂因素U1、U2,这种情况下,L变为干预前碰撞变量,如果被校正了的话,依然引入零效应下选择偏倚,这个又被称为:M偏倚(Greenland 2003)。

所以,在校正协变量时,一刀切的方法无论在哪种策略下,均是错误的。

                                                           校正策略

一直以来有一种言论,既然流行病学或医学中的所有结论都由统计学分析得来,那所有研究干脆让统计师来做算了,还要像我这样的医学生干啥,以后临床研究全部招统计学专业的人不是更好、做出来结果也更准确吗?甚至有人说,干脆让人工智能来自动分析数据,比人还准确,连测量偏倚都没有。

事实上,这种言论是错误的。首先,人工智能目前还差的很远,甚至可以说背道而驰,因为人工智能的目的是预测,而不是因果,这完全是两条不同的发展道路,当然这是老生常谈了,不多说了。那么仅凭统计师可以吗?也不可以

因为,如前所述,我们提到的几种选择偏倚类型,仅依靠某种数据分析策略来校正是不可行的,甚至起到引入偏倚的反向作用(或者放大偏倚,具体见丁鹏老师17年的论文,Z-bias)。

那么正确的方法是什么?我们需要数据外信息。具体而言就是,需要用我们的领域内专业知识来判断哪些变量是需要校正的,哪些变量是不需要校正的,哪些可能引入额外的偏倚。当然,这个过程并不容易,需要极强的专业知识来判断,有时候还会出错,但正是通过这个过程,我们得以不断逼近真实的因果效应,研究可以延续下去。我们判断的经验正是基于前人的研究得来的专业知识,可能这就是所谓“站在巨人的肩膀上”做研究。

文献来源:https://mp.weixin.qq.com/s/IzvCyX-hX6O_TklTpeDIWA( 石清阳 医咖会

相关文章

  • 浅谈选择偏倚

    病例对照中的RR与OR 最开始学病例对照研究的时候可能有一个疑问,就是为什么只能用比值比(OR),而不能用风险比(...

  • 选择偏倚

    统计学上有个说法,叫“#选择偏倚”:是指我们在统计时容易用局部样本代替总体的随机样本,导致对总体描述出现偏倚。 国...

  • 三大偏倚

    一般将偏倚分为三大类,即选择偏倚、信息偏倚和混杂偏倚。主要是了解各种偏倚的定义即其是如何产生的,另外要掌握这三大类...

  • Cochrane偏移风险

    使用Cochrane工具评估 何为随机对照试验 随机对照试验的偏倚来源 如何防止偏倚 介绍Cochrane评估偏倚...

  • 临床试验盲法介绍

    偏倚 偏倚(Bias)是临床试验在设计、执行、分析评价过程中产生的干扰疗效和安全性评价的系统误差。偏倚可能存在于临...

  • 预测GIST复发风险小工具 (No.2)NIH2008

    来自芬兰的肿瘤学著名专家,Patient 0 的报道者Joensuu执笔,汇聚了全球的大宗研究,避免病例选择偏倚。...

  • 临床预测模型 第4章

    PSM: 平衡和矫正混杂因素 慎重选择:可能会造成选择性偏倚。因为匹配后,贫血组和非贫血组都删掉部分人。那些删掉的...

  • 偏倚的处理

    偏倚概念 又称系统误差(Systematic error),是指研究结果与真实情况之间所存在的系统性偏差。偏倚的来...

  • 时刻不偏倚

    学习了先生和陆澄的对话,甚觉精彩。有以下感悟:一、只是在一时一事之上做到“中和”,并不能说明已经“达道”了。也就是...

  • 测量系统分析_偏倚分析

    定义 偏倚,测量结果的观测平均值与基准值的差值。偏倚大小表示测量系统的准确度。 研究对象 量具 独立样本法 步骤:...

网友评论

      本文标题:浅谈选择偏倚

      本文链接:https://www.haomeiwen.com/subject/wxdhmhtx.html