
临床大数据研究系列文献分享第7篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是介绍单变量描述和双变量统计推断。这里只做学习交流,版权归原作者所有。
摘要
在观察性研究中,第一步通常是探索数据分布和各组之间的基线差异。数据描述包括其集中趋势(例如,均值,中位数和众数)和离散度(例如,标准差,范围,四分位数范围)。有两种双变量统计推断方法,例如分别针对正常数据,Skew和分类数据的Student t检验,Mann-Whitney U检验和卡方检验。本文介绍了如何使用R代码执行这些分析。此外,作者认为整个工作流程的自动化至关重要,因为(I)它允许其他人重复您的结果; (II)您可以轻松地了解修订过程中的分析方式; (III)节省了手工输入的数据,并且不易出错; (IV)在更正原始数据集时,可以通过执行代码自动更正最终结果。因此,提供了一种制作包含所有上述统计信息和P值的出版量表的过程,从而使读者可以根据自己的需要定制这些代码。
前言
当通过使用上述方法(如校正,重新编码,重新缩放和缺失值插补)很好地准备了数据时,下一步就是执行统计描述和推断。在观察性研究中,第一个表通常显示总体人口的描述性统计数据,以及组间差异的统计推断。该表很重要,因为它可以估算基线特征的差异,并为进一步的多变量分析提供证据。本文首先概述了用于双变量分析的方法,然后提供了有关**如何在R中执行这些分析的分步教程。最后,我将展示如何自动创建表格。当存在大量变量时,这很有用。
参考文献






网友评论