美文网首页
混杂因素校正

混杂因素校正

作者: Thinkando | 来源:发表于2020-03-25 10:23 被阅读0次

    校正年龄和性别 | 统计
    医学统计案例研究:二元logistic回归研究混杂因素对自变量与因变量关系的影响

    了解病因有助于对疾病做出正确判断、采取有效的治疗,从而预防疾病的发生发展。某医生要开展冠状动脉狭窄程度与急性心肌梗死范围之间的关系研究,这里可以明确:研究的因变量为心肌梗死范围(Y),主要因素为冠状动脉狭窄程度(X),混杂因素可能有年龄、性别、生活方式以及血压等因素(Z)。如果要真实反映研究因素与结局指标的关系,就需要对混杂因素进行校正,可以建立多个Model(是否纳入混杂因素、纳入不同数量的混杂因素),观察效应值变化情况,将混杂因素(Z)的作用剥离出来,以发现主要因素(X)的独立作用。

    Logistic回归学习笔记完成情况:
    Logistic回归—初步了解10个问题
    Logistic回归—样本含量确定(1)
    Logistic回归—样本含量确定(2)
    Logistic回归—样本含量确定(3)
    Logistic回归—哑变量
    Logistic回归—OR值
    Logistic回归—多重共线性
    Logistic回归—筛选变量
    Logistic回归—筛选变量实践

    暴露因素与疾病存在关联时,可能由随机误差导致,也可能是统计学意义上的关联(包括虚假关联、间接关联和病因关联),因此在下结论前,充分考虑并排除竞争性解释,即排除虚假关联(由偏倚和偶然造成),调整和分析间接关联(由混杂因素产生)。病因学关联解释如下:


    image

    《流行病学》-第八版 王建华

    (徐飚, 2004)

    潜在混杂因素在研究组间分布不均衡时,才能起到混杂作用,产生混杂偏倚
    表明吸烟与酒精肝的发生有关联,但吸烟又常与饮酒同时存在,经分析后,发现饮酒是酒精肝的重要危险因素,观察到的吸烟和酒精肝之间的关联是由饮酒所产生的混杂造成的。如下图所示:

    image

    由于混杂因素的存在,暴露和疾病之间产生间接关联(或称继发关联),歪曲研究因素与疾病之间的真实关系,既高估或者低估。校正混杂因素成为病因学研究需要考虑的问题。

    1混杂因素的三个特征

    2016年JAMA杂志刊登的这篇文章《Confounding by Indication in Clinical Research》,介绍了识别混杂因素的三个重要标准:

    image

    JAMA, 2016, 316(17):1818-1819.

    混杂因素具备三个特征:

    (1)必须是研究疾病的危险因素;

    (2)必须与所研究暴露因素存在统计学联系;

    (3)不应该是暴露因素与疾病因果链中的一个中间环节。

    另外,这篇文章还介绍了控制混杂因素的方法及其局限性、结果解释、注意事项。

    2控制混杂因素的方法

    在设计阶段之初,可以通过分层匹配随机设计等方法控制混杂因素。分析阶段可通过分层后进行亚组分析倾向性匹配得分多元回归分析(多重线性回归,多元logistic回归和Cox回归);工具变量交互效应分析,达到控制混杂的目的。

    image

    BMJ, 2005, 330(7498):1021-1023.

    上述方法各有利弊,如下图所示:

    image

    《临床研究设计》第四版—主译 彭晓霞 唐讯

    image

    《临床研究设计》第四版—主译 彭晓霞 唐讯

    3logistic回归校正混杂因素

    采用logistic回归分析,将研究因素、混杂因素及其交互作用均体现于模型中,基于效应估计值改变量的方法,可在校正混杂因素的作用下,研究结局变量与主要因素间的联系。

    image

    BMJ, 2005, 330(7498):1021-1023.

    image

    International Journal of Clinical Practice, 2010, 63(5):691-697.

    作者研究血浆同型半胱氨酸水平与发生颈动脉斑块风险关系,见下图,分别建立三个logistic回归模型,第一个模型不校正混杂因素,OR值为2.00,;第二个模型校正年龄、性别后OR值为1.92;第三个模型在第二个模型基础之上校正BMI和高血压患病史,OR值为1.89,可见校正混杂因素后,反映血浆同型半胱氨酸水平与发生颈动脉斑块风险关系的OR值发生变化。

    image

    中国循环杂志, 2014, 29(5):363-366.

    作者研究不同累积高血压暴露时间对CIMT的影响,模型1以不同累积高血压暴露时间组为自变量,以CIMT为因变量模型进行logistic回归分析;模型2在模型1的基础上校正了性别、年龄;模型3在模型2的基础上校正了空腹血糖、基线收缩压、总胆固醇、体质量指数、吸烟、饮酒、体育锻炼、高血压家族史、服降压药、服降糖药、服降脂药。相应的OR估计值发生明显变化。

    image

    中华高血压杂志, 2016(7):632-638.

    参考文献:

    [1]Normand SLT . Readers guide to critical appraisal of cohort studies: Analytical strategies to reduce confounding[J]. BMJ, 2005, 330(7498):1021-1023.

    [2]Lu CY . Observational studies: a review of study designs, challenges and strategies to reduce confounding[J]. International Journal of Clinical Practice, 2010, 63(5):691-697.

    [3]邓宇鲲, 闫冰, 陈涛, 等. 血浆同型半胱氨酸水平与颈动脉斑块相关性的研究[J]. 中国循环杂志, 2014, 29(5):363-366.

    [4]张芮英, 宋路, 李春慧,, 等. 老年累积高血压暴露与颈动脉内膜中层厚度的关系[J]. 中华高血压杂志, 2016(7):632-638.

    [5]王建华. 流行病学[M]. 第八版. 北京: 人民卫生出版社, 2018:31-33.

    [6]彭晓霞,唐迅. 临床研究设计[M]. 第四版. 北京: 北京大学医学出版社, 2017:120-125.

    本文转自
    Logistic回归—混杂因素校正
    Logistic回归—筛选变量

    for (i in 1:ncol(yu.abundance)){
      y=log2(yu.abundance[,i]+1)
      lm.fit=lm(y~age,data = yu)
      s=summary(lm.fit)
      p.value=s$coefficients[2,4]
      if (p.value<0.05){
        yu.abundance[,i]=2^(lm.fit$residuals)
      }
    }
    

    相关文章

      网友评论

          本文标题:混杂因素校正

          本文链接:https://www.haomeiwen.com/subject/xqhtuhtx.html