SEER数据库(The Surveillance, Epidemiology, and End Results)

发布时间:2023-12-22浏览量:

1. 数据集名称:

SEER(The Surveillance,Epidemiology,and End Results)

2. 数据集基本情况:

•项目背景:

–SEER是美国国家癌症研究所(National Cancer Institute,NCI)创建的一个公共数据库和研究资源。SEER数据库收集和储存了全美范围内的癌症发病率、生存率和治疗数据,以支持癌症研究和流行病学调查。

–起始年份:1975年

–追踪调查年份:1975-2020年,数据每年更新。

–数据特征:

•SEER目前覆盖约48.0%美国人口的基于人群癌症登记册中收集和发布癌症的发病率和生存信息,覆盖约42.0%的白人,44.7%的非裔美国人、66.3%的西班牙裔、59.9%的美国印第安人和阿拉斯加原住民,70.7%的亚洲人和70.3%的夏威夷/太平洋岛民。

•SEER登记处定期收集有关患者人口学、原发肿瘤部位、肿瘤形态和诊断阶段、第一疗程的生命状态的随访数据,包括诊断时的癌症阶段和患者生存信息。

•样本量:

–SEER数据库涵盖了多个数据集,以8个注册处的SEER研究数据为例,SEER8覆盖了约8.3%的美国人口,大多数年份可用,但地理覆盖范围最小。是包含4917840个肿瘤的分别的记录,并且提供了两个年龄组:19 age groups(<1year,1-4 years,5-9 years,...85+ years)和single ages with 85+两个组。

–其中SEER8(2020)记录了148821份案例,SEER8(1975-2020)记录了4917840份案例。

–SEER12(2020)记录了204297份案例,SEER(1992-2020)记录了5242485份案例。

–SEER17(2020)记录了466316份案例,SEER17(2000-2020)记录了9208295份案例。

–SEER22(2020)记录了838085份案例,SEER22(2000-2020)记录了16683417份案例。

•数据类型:

–患者基线信息:一岁以下儿童的年龄纪录、种族(白、黑或其他)、性别、州县、年龄、确诊时的婚姻状况等

–癌症信息:诊断年份、首个恶性一级指标、跟踪记录的年份、死亡年份、患者良性肿瘤/交界性肿瘤总数、患者的原位/恶性肿瘤总数

–生物医学指标数据:ICD-O-3行为编码、淋巴肿瘤重新编码等

–社会信息:县级属性

•要求/限制

–数据目前截止到2020年

–已删除隐私信息(姓名、住址和日期等)

–如果SEER没有捕获治疗数据,则无法知道患者是否接受了治疗,或者注册处是否错过了治疗信息,由于无法准确区分“未治疗”和“患者是否接受治疗未知”,要求相关的变量被归类为“是”或“否/未知”。

–某些类型的治疗数据(即化疗、荷尔蒙疗法、放射疗法)不太完整,如果缺少治疗信息,治疗日期很可能也缺失。

–在使用手术系统治疗和放射治疗变量来识别可能接受新辅助治疗的患者时要小心,因为本数据库中的手术可以指任何手术相关数据项中记录的任何手术过程;且虽然变量报告手术和其他治疗方式的顺序,但并不考虑事件的事件;有可能缺少有关辐射或系统治疗的信息,导致可能会低估新辅助治疗的频率。

–由于日期变量不可用,所以从诊断到治疗的几个月的时间的计算不准确,且SEER治疗数据目前仅限于第一疗程治疗模型,即从诊断到治疗的时间是第一疗程的时间。

–注:新辅助指在治疗手术前提供的系统治疗,目的是在手术前使肿瘤缩小,以在后续得到更好的疗效。

3. 数据申请网站:

lSEER Incidence Data:https://seer.cancer.gov/data/

4. 申请流程:

l在SEER官网(https://seer.cancer.gov/data/)发起访问请求并注册,接下来根据邮件提示完成注册和申请即可。

l申请成功以后便可以下载SEER*Stat以获取数据。