临床大数据研究系列文献分享第三篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是处理大数据中的缺失值的一些基本技能。这里只做学习交流,版权归原作者所有。
摘要
R base附带的功能可以完成丢失数据处理的许多任务。但是,由于电子病历(EMR)系统的数据量始终很大,因此,更复杂的方法可能有助于数据管理。本文重点介绍通过使用高级技术来处理丢失的数据。丢失数据有三种类型,即完全随机丢失(MCAR),随机丢失(MAR)和非随机丢失(NMAR)。此分类系统取决于如何生成缺失值。两个软件包,通过链式方程进行的多元插补(MICE)和缺失值的可视化和插补(VIM),提供了完善的功能来探索缺失的数据模式。特别是,VIM软件包在可视化检查丢失的数据时特别有用。最后,相关分析提供了有关缺失数据对其他变量的依赖性的信息。此类信息在后续的估算中很有用。
参考文献
Zhang Z. Missing data exploration: highlighting graphical presentation of missing pattern. Ann Transl Med 2015;3(22):356. doi: 10.3978/j.issn.2305-5839.2015.12.28
网友评论