R小盐准备介绍那些小众又好用的生信数据库
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
今天R小盐介绍的数据库是NHANES数据库
01 数据库介绍
https://www.cdc.gov/nchs/nhanes/index.htm
NHANES,国家健康和营养检查调查 (NHANES,National Health and Nutrition Examination Survey) 是一项基于人群的横断面调查,旨在收集美国成人和儿童的健康和营养状况的信息,该调查的独特之处在于它结合了访谈和体检。该数据库包括Demog Data(人口统计学数据)、Dietary Data(饮食数据)、 Examination Data(检查数据)、Laboratory Data(实验室数据)、Questionnaire Data(问卷数据)、Limited Access Data(有限访问数据)。调查结果将用于确定主要疾病的患病率和疾病的风险因素,也是衡量身高、体重和血压等国家标准的基础。
NHANES 数据库拥有庞大的数据资源,并且完全开放免费下载,而且这个数据库每两年更新一次,会加入大把新数据,完全不担心样本量不够。
02 NHANES数据库使用
NHANES数据库提供简单的数据下载方式,可以提供的下载数据内容如下:
数据集中每一个变量都有详细的解释
SDDSRVYR代表两年数据发布周期数。“4”值表示 NHANES 2005-2006。
RIDSTATR是一个重新编码的变量,代表面试/考试状态。
RIDEXMON是一个变量,表示进行检查的六个月时间段。值“1”表示 11 月 1日至 4 月 30日;“2”值表示从 5 月 1日到 10 月 31日。
RIDAGEYR : 年龄在 1 至 84 岁之间的调查参与者报告筛选访谈时的年龄。所有 85 岁及以上的成年人的 RIDAGEYR 值均为“85”。85 岁及以上成年人的单年年龄报告被确定为存在披露风险。在 NHANES 2005-2006 中,85 岁及以上参与者的加权平均年龄为 89 岁。
受访者的实际或推算出生日期用于计算 RIDAGEYR。当出生日期缺失或拒绝时,NCHS 用于在筛选器上估算年龄但提供了受访者年龄(以岁为单位)的程序如下: 如果出生月份缺失或未给出,则估算为 7。如果天出生年份缺失或未给出,则估算为 1。如果出生年份缺失或未给出,则估算为筛选访谈的年份减去受访者在筛选访谈期间提供的年龄。对筛选时不满 1 岁的受访者的估算信息进行更正。
RIDAGEMN是受访者在家庭筛查面谈时的月龄。RIDAGEMN 提供给年龄小于 85 岁的受访者 (RIDAGEYR<85)。如果被访者没有提供确切的出生日期,则以月为单位的年龄是根据筛选员面谈时的推算年龄计算的。
RIDAGEEX在移动考试中心 (MEC) 考试中以月为单位。RIDAGEEX 提供给家庭筛查时年龄在 85 岁以下的受试者(RIDAGEYR<85)。在家庭筛查访谈时,共有 25 名年龄在 85 岁以下的受访者缺少 RIDAGEEX 的数据,因为他们的确切出生日期不可用。RIDAGEEX 不是为具有年龄估算值的个人计算的。
RIDRETH1:RIDRETH1 源自对种族和西班牙裔调查问题的回答。自我认定为“墨西哥裔美国人”的受访者被编码为这样(即,RIDRETH1=1),无论他们的其他种族-民族身份如何。否则,自我识别的“西班牙裔”种族将导致 RIDRETH1 变量中的代码“2,其他西班牙裔”。然后,所有其他非西班牙裔参与者将根据他们自我报告的种族进行分类:非西班牙裔白人 (RIDRETH1=3)、非西班牙裔黑人 (RIDRETH1=4) 和其他非西班牙裔种族,包括非西班牙裔多种族( RIDRETH1=5)。
RIDRETH1 是 2005-2006 年人口统计数据文件中唯一的种族/民族变量。为 NHANES 1999-2004 发布的 Demographics 文件有一个名为“RIDRETH2”的变量,它提供了 NHANES III 种族/民族变量的分析链接。RIDRETH2 未包含在 NHANES 2005-2006 人口统计文件中。NHANES 分析指南提供了更多信息。
DMDBORN:出生国家被重新编码为三类:1)出生在美国 50 个州之一或华盛顿特区;2) 出生在墨西哥;3) 出生在任何其他地方或外国。
DMDCITZN : 公民身份使用两个代码报告:1) 出生或入籍公民或 2) 非美国公民 在美国或美国领土出生并在出生时获得公民身份的人被编码为美国公民。
DMDMARTL是派生的婚姻状况变量。婚姻状况问题是针对 14 岁及以上的人提出的。如果 14 岁及以上的人缺少此项目,则婚姻状况是从参考受访者婚姻状况的其他问卷项目中估算的。
骑乘:8-59 岁女性在进行健康检查时的妊娠状况已确定。用于编码 RIDEXPRG 值的信息包括尿妊娠试验结果和自我报告的妊娠状态。在双能 X 射线吸收测定法 (DXA) 检查之前进行了尿液妊娠试验。8-11 岁的来月经女孩和 12 岁及以上的所有女性都接受了尿妊娠试验。在检查时报告自己怀孕的人被假定为怀孕。如果尿检为阴性,但受试者报告他们怀孕了,则状态编码为“检查时怀孕”(RIDEXPRG = 1)。如果尿妊娠结果为阴性并且被调查者声明他们没有怀孕,则被调查者被编码为“检查时未怀孕”(RIDEXPRG = 2)。接受采访的人,
DMDYRSUS:这个变量是受访者在美国居住的年数。在美国以外出生的受访者被问及他们来美国停留的月份和年份(DMQ.160)。由于受访者没有报告他们到达的月份,因此估算了少量记录。使用 7(7 月)的月份值来估算这些受访者的 DMDYRSUS。对问题的回答被重新编码为 9 个类别,范围从不到一年到 50 年或更长。
DMDFMSIZ:该变量是受访者家庭中的人数。家庭的定义基于当前人口调查 (CPS) 标准。CPS 将家庭定义为“由两个或两个以上的人(其中一个是户主)因出生、婚姻或收养而共同居住的群体”;所有这些人(包括相关的子家庭成员)都被视为一个家庭的成员。由于披露问题,由 7 人或更多人组成的家庭包含在标记为“7 人或更多”的类别中。
DMDHHSIZ:该变量是受访者家庭中的人数。该变量的值范围从 1 到 7,其中 7 是用于由 7 名或更多成员组成的家庭的代码。
DMDEDUC3:此变量提供有关 6-19 岁受访者完成的最高等级或教育水平的信息。NCHS 将答复重新编码如下:单年教育(1-12 年级)、高中毕业生/GED 和高中后。代码“66”(低于 9年级)用于对受教育水平非常低的老年青年进行分类。
DMDEDUC2:此变量是 20 岁及以上成年人完成的最高等级或教育水平。回答类别为:9 年级以下教育、9-11年级教育(包括 12年级且无文凭)、高中毕业生/GED、某些大学或副学士 (AA) 学位以及大学毕业生或更高学历。与 NHANES 1999-2004 人口统计文件中发布的类别相比,DMDEDUC2 提供了有关成人教育水平的更详细信息。NHANES 1999-2004 人口统计数据文件将被修订以包括 DMDEDUC2。有关教育水平变量的更多信息,请参阅分析说明。
DMDSCHOL:这个变量是学校出勤状况。要求 6-19 岁的受访者。
DMQMILIT:此变量提供有关退伍军人/军人身份的信息。退伍军人包括在美国武装部队服役的人员,特别是美国陆军、海军、空军、海军陆战队和海岸警卫队。
INDFMINC:该变量是家庭总收入变量,并作为收入范围值发布。NCHS 使用美国人口普查局对“家庭”的定义将家庭成员分为一个或多个家庭 (1)。CPS 将家庭定义为“由两个或两个以上的人(其中一个是户主)因出生、婚姻或收养而共同居住的群体”;所有这些人(包括相关的子家庭成员)都被视为一个家庭的成员。
家庭访谈的收入部分包括几个关于收入来源的问题,包括工资、退休收入、残疾津贴、利息收入和援助计划,但没有获得每个收入来源的收入金额。受访者被要求以美元报告自己和其他家庭成员的家庭总收入(问题 INQ200)。如果被调查者拒绝回答 INQ200 或不知道家庭总收入,则询问收入筛选问题(问题 INQ220)以询问家庭总收入是否 < 20,000 美元或 ≥ 20,000 美元。如果受访者回答了 INQ220,则后续问题要求受访者从打印的手卡上列出的收入范围列表中选择一个收入范围(问题 INQ230);
家庭收入用于计算收入与贫困的比率(INDFMPIR)和估计的家庭总收入(INDHHINC)。
INDHHINC:这个变量是估计的家庭总收入。如果一个家庭由一个 CPS 家庭组成,则使用如前所述的家庭收入值。当一个以上的 CPS 家庭居住在家庭中时,使用两种方法来计算估计的家庭总收入。首选方法是使用每个接受采访的 CPS 家庭报告的收入数据 (INQ200)。第二种方法用于多户家庭,其中向家庭参考人询问家庭总收入信息(INQ200)。
当从一个家庭中的所有 CPS 家庭获得收入信息时,将报告的 CPS 家庭收入值相加以计算家庭总收入 (INDHHINC)。当家庭中任何 CPS 家庭的信息缺失时,家庭参考人员提供的估计家庭收入值用于计算估计的家庭总收入。当家庭中的任何家庭报告收入范围数据时,不计算多户家庭的家庭总收入,在这些情况下,INDHHINC 被编码为缺失。
INDFMPIR:这个变量是家庭收入与贫困比率的指数。卫生与公众服务部 (HHS) 的贫困指南被用作计算该指数的贫困衡量标准。这些指南每年都会在联邦公报中发布,用于确定某些联邦计划的财务资格,例如启蒙计划、补充营养援助计划 (SNAP)(以前的食品券计划)、针对妇女、婴儿和儿童的特殊补充营养计划(WIC) 和全国学校午餐计划。
变量 INDFMPIR 的计算方法是将家庭收入除以贫困线,具体到家庭规模,以及适当的年份和州。如果收入筛选信息(INQ 220:< 20,000)是报告的唯一家庭收入信息,则不计算这些值。如果家庭收入报告为范围值,则使用范围的中点来计算变量。由于披露问题,5.00 或以上的值被编码为 5.00 或更高。如果家庭收入数据缺失,则不计算这些值。
家庭参考人:家庭参考人被定义为在 Screener 家庭成员名册上列出的第一个 18 岁或以上的家庭成员,他拥有或租用家庭成员居住的住宅。家庭参考人相当于之前 NHANES 中的“家庭参考人”。分析人员经常使用有关参考人员的信息来描述调查参与者居住的家庭的社会经济状况。人口统计文件包括有关家庭参考人员的性别 (DMDHRGND)、年龄 (DMDHRAGE)、出生国家 (DMDHRBRN)、教育水平 (DMDHREDU) 和婚姻状况 (DMDHRMAR) 的信息。此外,还包括家庭参考人配偶的教育水平信息(DMDHSEDU)。
SIALANG是 Sample Person Questionnaire 访谈期间使用的语言
SIAPROXY表示在样本人员问卷访谈期间是否使用了代理受访者。
SIAINTRP表示在样本人员问卷访谈期间是否使用了口译员。受访者所说的语言没有报告。
FIALANG是家庭问卷访谈中使用的语言。
FIAPROXY表示是否使用代理受访者完成家庭问卷访谈
FIAINTRP表示是否使用口译员完成家庭问卷访谈。受访者所说的语言没有报告。
MIALANG是移动考试中心 (MEC) 面试期间使用的语言。
MIAPROXY表示在移动考试中心 (MEC) 面谈期间是否使用了代理答辩人。
MIAINTRP表示是否使用口译员进行移动考试中心 (MEC) 面试。受访者所说的语言没有报告。
AIALANG是用于 MEC 面试的音频计算机辅助自我面试 (A-CASI) 部分的语言。
这里提供了详细的学习教程:
03 R语言下载
大神把NHANES数据库的数据下载写成了一个包,可以直接安装调用!!!
library(RNHANES)
# Download environmental phenols & parabens data from the 2011-2012 survey cycle
dat <- nhanes_load_data("EPH", "2011-2012")
# Download the same data, but this time include demographics data (which includes sample weights)
dat <- nhanes_load_data("EPH", "2011-2012", demographics = TRUE)
# Find the sample size for urinary triclosan
nhanes_sample_size(dat,
column = "URXTRS",
comment_column = "URDTRSLC",
weights_column = "WTSA2YR")
# Compute the detection frequency of urinary triclosan
nhanes_detection_frequency(dat,
column = "URXTRS",
comment_column = "URDTRSLC",
weights_column = "WTSA2YR")
# Compute 95th and 99th quantiles for urinary triclosan
nhanes_quantile(dat,
column = "URXTRS",
comment_column = "URDTRSLC",
weights_column = "WTSA2YR",
quantiles = c(0.95, 0.99))
# Compute geometric mean of urinary triclosan
nhanes_geometric_mean(dat,
column = "URXTRS",
weights_column = "WTSA2YR")
# Plot a histogram of the urinary triclosan distribution
nhanes_hist(dat,
column = "URXTRS",
comment_column = "URDTRSLC",
weights_column = "WTSA2YR")
# Build a survey design object for use with survey package
design <- nhanes_survey_design(dat, weights_column = "WTSA2YR")
library(survey)
library(RNHANES)
library(tidyverse)
dat <- nhanes_load_data("EPHPP_H", "2013-2014", demographics = TRUE) %>%
filter(!is.na(URXBPH))
des <- nhanes_survey_design(dat, "WTSB2YR")
logmean <- svymean(~log(URXBPH), des, na.rm = TRUE)
# Geometric mean lower 95% confidence interval
exp(logmean[1] - 1.96 * sqrt(attr(logmean, "var")))
# Geometric mean
exp(logmean)[1]
# Geometric mean upper 95% confidence interval
exp(logmean[1] + 1.96 * sqrt(attr(logmean, "var")))
04 数据库引用:
https://github.com/silentspringinstitute/RNHANES
https://www.cdc.gov/nchs/nhanes/index.htm
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 生物信息在线数据库
网友评论