临床大数据研究系列文献分享第四篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是处理大数据中的缺失值的单纯插补。这里只做学习交流,版权归原作者所有。
摘要
完整案例分析,也就是把缺失数据都删掉,只保留完整数据,广泛用于处理丢失的数据,它是许多统计软件包中的默认方法。但是,此方法可能会引入偏差,并且一些有用的信息将从分析中省略。因此,开发了许多插补方法来消除间隙。本文重点介绍单一插补。带有均值,中位数和众数的插补很简单,但像完整的案例分析一样,可能会导致均值和偏差出现偏差。此外,他们忽略了与其他变量的关系。回归估算可以保留缺失值和其他变量之间的关系。存在许多复杂的方法来处理纵向数据中的缺失值。本文主要关注如何实现R代码以执行单纯插补single imputation,同时避免复杂的数学计算。
介绍
缺失数据在大数据临床试验中无处不在。尽管许多研究没有明确报告它们如何处理丢失的数据,但统计软件中使用了一些隐式方法。结果,不同的软件包可能以不同的方式处理丢失的数据(或默认方法不同),并且可能无法通过使用不同的统计软件包来精确复制结果。有时这可能不会导致显着不同的结果,但是研究的科学可靠性受到了损害。最佳做法是明确说明如何处理缺失值。为简单起见,许多研究人员仅删除不完整的案例(按列表删除),这也是许多回归软件包中的默认方法(3)。仅当缺失值的数量不大且缺失模式完全随机缺失(MCAR)或MAR缺失时,此方法才能获得可靠的结果。完整案例分析的另一个缺点是信息丢失。当存在大量变量(列)时,这可能是一个大问题。由于删除是基于一个或多个变量的缺失,因此可以删除大量案例。此外,完整的案例分析可能会导致无法预测的偏差。解决这个问题的方法是数据插补。缺失值将替换为估算值。由于插补是一个活跃的研究领域,因此为数据插补开发了许多方法和软件包。本文旨在介绍一些用于丢失数据的基本插补方法。大数据临床试验系列的后续文章将讨论多重插补。
参考文献
Cite this article as: Zhang Z. Missing data imputation: focusing on single imputation. Ann Transl Med 2016;4(1):9. doi: 10.3978/j.issn.2305-5839.2015.12.38
网友评论