重症医学数据库(The Medical Information Mart for Intensive Care Ⅳ,MIMIC-Ⅳ)
发布时间:2023-12-22浏览量:1. 数据集名称:
The Medical Information Mart for Intensive Care IV (MIMIC-IV)
2. 数据集基本情况:
•项目背景:
–MIMIC重症医学数据库是2003年在NIH的资助下,由来自贝斯以色列女执事医疗中心(BIDMC)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的。数据库中收录了BIDMC所有内外科重症监护病房收治患者的相关信息,团队出于保护患者隐私的需求,对患者信息脱敏处理后向全世界的研究人员免费开放。数据涵盖患者生命体征、药物情况、实验室监测、护理人员绘制的观察结果和笔记、液体平衡、程序代码、诊断代码、成像报告、住院时间、生存数据等。
–数据跨度:2008-2019
•数据库结构:
–数据库分为五个主要模块:Hospital、ICU、ED(急诊)、Note、CXR(胸片),具体结构及覆盖信息类型见图1。除字典表(医疗术语对照)之外,表之间通过患者编号、病案号以及ICU编号进行连接,表1列出了各个模块所对应的表格名称。
图1:MIMIC-IV数据集结构示意
表1:MIMIC-IV数据表
Module |
Information Type |
Related Tables |
Hospital |
Patient Tracking |
patients, admissions, transfers |
Administration |
service, poe, poe_detail |
|
Billing |
diagnoses_icd, d_icd_diagnoses; procedure_icd, d_icd_procedures; drgcodes; hcpsevents, d_hcps |
|
Measurement |
microbiologyevents; omr; labevents, d_labitems |
|
Medication |
emar, emar_details; pharmacy; prescriptions |
|
ICU |
Patient Tracking |
icustays |
Measurement |
d_items, chartevents, datetimeevents, ingredientevents, inputevents, outputevents, procedureevents |
|
Note |
Deidentified Free-text |
discharge, discharge_detail; radiology, radiology_detail |
•样本量:
–MIMIC-Ⅲ数据库收集了BIDMC 2001年6月至2012年10月ICU收治的53423例成年患者数据和2001年至2008年收治的7870例新生儿重症患者数据。MIMIC-Ⅳ数据库在MIMIC-Ⅲ的基础上做了一些改进,包括数据更新和部分表格重构,收集了2008至2019年BIDMC收治的超过19万名患者、45万次住院记录的临床数据。
–CXR模块(MIMIC-Ⅳ新增):包含227835项影像学研究,涵盖了2011年至2016年间在贝斯以色列女执事医疗中心急诊科(BIDMC)就诊的64588名患者。数据集中共有377110张图像可用,每份影像研究可包含多张图像。
•其他重要信息:
–MIMIC已经对患者信息进行脱敏处理,无需临床伦理审核;
–按照数据格式,患者数据可以划分为结构化数据(实验室测量、生理数据等)以及非结构化数据(医嘱诊断信息等);
–与MIMIC-III相比,MIMIC-IV说明了了每张表的源数据库,在澄清数据来源的同时说明了一些关于数据覆盖率的问题;
–MIMIC-IV代码库中记录了一般研究中经常需要用到的数据的获取代码。数据库持续更新维护,最新版本发布时间为2023年1月。但当前Note模块以及心电图波形数据官方尚未发布。
3. 适用任务:
•预测性任务:患者结局预测、干预结果预测、疾病进程预测;
•回顾性任务:临床表征规律、干预模式分析、危险因素分析;
•文本挖掘与图像识别。
4. MIMIC官方网站:
•https://mimic.mit.edu/docs/iv/
5. 文献出处:
•Johnson, A.E.W., Bulgarelli, L., Shen, L. et al. MIMIC-IV, a freely accessible electronic health record dataset. Sci Data 10, 1 (2023). https://doi.org/10.1038/s41597-022-01899-x
•基于该数据集的研究文献:
S. Abdulrahman, H. Tout, H. Ould-Slimane, A. Mourad, C. Talhi and M. Guizani, 'A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site Learning and Beyond,' in IEEE Internet of Things Journal, vol. 8, no. 7, pp. 5476-5497, 1 April1, 2021, doi: 10.1109/JIOT.2020.3030072.
•基于该数据集的历年模型精度的结果:
https://paperswithcode.com/dataset/mimic-iv
https://paperswithcode.com/dataset/mimic-iii
5. 数据申请流程
•PhysioNet账户认证,完成要求的培训:
Step1:在CITI网站注册,选择组织为Massachusetts Institute ofTechnology Affiliates,在“人类受试者”培训类别中,选择“Data or Specimens Only Research”课程,注册完成后即可开始答题(可重复答题)。完成答题后下载学习报告,用于后续申请。
Step2:注册PhysioNet账户,申请权限,提交CITI认证报告
注册页面链接:https://physionet.org/login/
权限申请页面链接:https://link.zhihu.com/?target='https%3A//physionet.org/settings/credentialing/
•签署数据使用协议;
•登录PhysioNet账户,在云端访问(推荐)或者在本地下载