健康与营养调查(National Health and Nutrition Examination Survey,NHANES)
发布时间:2023-12-22浏览量:1. 数据集名称:
National Health and Nutrition Examination Survey(NHANES)
2. 数据集基本情况:
•项目背景:
–NHANES是一个基于人群的横断面调查,该调查结合了访谈和身体检查,旨在评估美国成人和儿童的健康和营养状况。访谈包括人口统计、社会经济、饮食和健康相关问题。检查部分包括医学、牙科和生理测量,以及由训练有素的医务人员进行的实验室测试。
–调查年份:1999-2020年,以及2017-2020年期间疫情大流行的数据,虽然2021-2023年份已经存在,但是2021-2023的数据还未整理完成。
–样本量及调查地区:该调查每年对约5000人进行全国代表性抽样调查,调查包含全国各地的县,每年对其中15个县进行访问。
–入组年龄要求:调查的样本为代表所有年龄段的美国人口。为了产生可靠的统计数据,NHANES对60岁及以上的人、非洲裔美国人和西班牙裔美国人进行了抽样调查。
•数据类型:
–Demog Data(人口统计学数据):一个包含人口统计变量以及调查权重和其他调查设计变量的文件
–Dietary Data(饮食数据):膳食访谈,营养品使用等。
–Examination Data(检查数据):检查听力,血压,身体测量,肌肉力量,口腔健康,视力检查等。
–Laboratory Data(实验室数据):尿液收集、甲型肝炎病毒、艾滋病毒、重金属、血糖、总胆固醇、甘油三酯等。
–Questionnaire Data(问卷数据):有关酒精使用、平衡、血压、糖尿病、药物使用、社会支持、视力、体重史等。
–Limited Access Data(访问受限的数据)
•要求:
–对于每个数据周期,将人口统计、饮食、检查、实验室数据和问卷调查五个数据组成部分合并,第一步是按唯一标识符对每个数据文件进行排序。
1)大多数NHANES数据文件只包含参与该调查的每个样本人员的一条记录。对于这些文件,SEQN(表示ID号)是该文件上的唯一标识符,因此必须使用SEQN作为合并的键变量。例如,人口统计变量和样本权重(DEMO)文件包含每个样本的一条记录,身体测量(BMX)文件包含每个参加MEC考试的样本的一条记录。
2)然而,一些NHANES数据文件可能包含每个样本人员的多个记录。对于具有这种结构的文件,SEQN不是唯一标识符。具有这种多记录结构的数据文件的一些例子包括:
处方药(RXQ_RX);
膳食访谈-总营养素摄入量:第一天(DR1TOT)和第二天(DR2TOT);
饮食访谈-个体饮食:第一天(DR1IFF)和第二天(DR2IFF)。
分析人员在合并文件时需要了解这种数据结构。例如,使用处方药数据(RXQ_RX)的分析师需要将详细的药物级别文件转换为个人级别文件(每个人有一条记录),然后使用SEQN作为唯一标识符将其与NHANES人口统计和其他数据文件合并。
•权重分析:
–NHANES的数据是有权重的,下载好的数据不能直接用常规的统计方法进行分析。NHANES官网要求在研究的时候加权分析数据。因为加权能更真实地反映出整体的情况。
–NHANES调查的抽样方式是分层抽样。每两年进行一次调查。在美国选取几个州,接着再选取州下面的一些县级别,然后在县级别中选取一些市级别的地方,最后在选取市级别下的城镇级别选取家庭为作为调查单位。
–首先进行问卷调查(in-home interview),美国总人口数/参加调查问卷的人数= wtint2yr
–然后参与问卷调查的人被告知做进一步实验室数据检查和身体测量(MEC检查),但是只有一部分人参与,因此产生了另外一个权重wtmec2yr。他们中的一些人进行一些小众化的测试用于调查疾病的调查,如一部分人参与饮食调查所以在文件“dr1iff”中有个权重WTDR2D - Dietary two-day sample weight。
–数据库的demo文件中已经给了wtint2yr,wtmec2yr,一些人数更少的调查项目中有权重的会给出相应的权重,如在饮食文件中“dr1iff”中有个权重wtdr2d。分析的时候取最小调查人群即子集对应的数据的权重。
–a)具体而言:如果研究对象都是调查问卷里,则采用wtint2yr;
b)如果研究的对象既有调查问卷的又有测量的数据,或者只有测量的数据则采用wtmec2yr;
c)如果研究的对象参与了更为人数少调查或测量,则采用小众人群所对应的权重,如wtdr2d
–合并权重:
a)在研究中一般选用几年的调查样本进行合并之后再进行数据分析调查,每2年的调查数据均有相应的权重,在合理选择权重之后,合并几年可以按照如下公式:
公式中Weight表示合并权重,n 表示的是考虑了几个2年循环,wt1 ~wtn表示每个2年循环对应的权重。
b)需要注意的特殊年份:1999-2000;2001-2002,这两个年份分别各有一个wtint2yr与wtmec2yr,但是他们合并起来有一个wtint4yr,wtmec4yr。选择的年份的不同,则选用的权重不同。
情况1:如果选择的年份中只包含1999-2000,2001-2002年中的一个年份只需要按照上述的一般情况的公式去计算。
情况2:如果选择的年份包含1999-2000与2001-2002年两个年份时选,用整体四年对应的权重,公式改为:
理解为把1999-2000看做一个年份,然后占用份额是2 ,剩下的年份占用的份额分别是1 。
3. 数据集下载地址:https://www.cdc.gov/nchs/nhanes/index.htm
4. 数据任务:
–这项调查的结果可以用于确定主要疾病的流行情况和疾病的危险因素;评估营养状况及其与健康促进和疾病预防的关系;NHANES的研究结果也是制定诸如身高、体重和血压等国家测量标准的基础。这项调查的数据可以用于流行病学研究和健康科学研究,这有助于制定健全的公共卫生政策,指导和设计健康计划和服务,并为国家扩展健康知识。